Ingesting Millions of PDFs and why Gemini 2.0 Changes Everything by Sergey Filimonov.
Di pekerjaan saya saat ini, tim kami membutuhkan OCR KTP untuk keperluan KYC.
Kebutuhan yang berbeda dengan yang ditulis oleh Sergey, namun secara general, konsep OCR menggunakan LLM ini menarik perhatian saya,
Sekarang ini kami masih menggunakan vendor untuk otomatisasi proses OCR ini. Saya cukup yakin layanan OCR yang kami gunakan itu belum menggunakan LLM.
Pada link di atas, Sergey berargumen bahwa untuk keperluan-nya yang cukup kompleks, OCR dokumen PDF menggunakan LLM Google Gemini 2.0 memberikan hasil OCR yang berkualitas tinggi dengan harga yang murah.
While in my opinion the developer experience with Google still lags behind OpenAI, their cost-effectiveness is impossible to ignore. Unlike 1.5 Flash, which had subtle inconsistencies that made it difficult to rely on in production, our internal testing shows Gemini Flash 2.0 achieves near-perfect OCR accuracy while being still being incredibly cheap.
Beyond table parsing, Gemini consistently delivers near-perfect accuracy across all other facets of PDF-to-markdown conversion. If you combine all this together, you’re left with a indexing pipeline that exceedingly simple, scalable and cheap.
Di bayangan saya, tingkat kesulitan OCR untuk KTP seharusnya jauh lebih rendah daripada contoh-contoh yang diberikan oleh Sergey.
Jika seandainya tingkat akurasi OCR KTP bisa sebaik yang dilaporkan Sergey, maka hal menarik berikutnya adalah dari sisi harga:
I’ve gotten questions on this so here’s how I’ve broken down the cost of Gemini Flash 2.0. Input Image Cost – $0.00009675 per image. Output Cost – $0.0000525 per 400 tokens. This translates to 6,379 pages per dollar. Densely packed pages may cost more, but this provides a solid estimate.
Jika 1 dolar adalah 16,500 IDR, artinya untuk OCR 1 foto KTP biayanya hanya 2.6 Rupiah saja! Sebuah harga yang jauh lebih murah dari yang kami bayarkan selama ini per satu kali OCR KTP.
Tentunya masih ada masalah legal dan compliance yang harus dipikirkan, karena data di KTP adalah data PII.
Namun mungkin tidak masalah jika menjalankan model di network sendiri? Menarik untuk dipertimbangkan.
Sebelum kamu pergi
Kalau kamu suka dengan artikel ini, gunakan tombol-tombol di bawah untuk membagikan artikel ini ke teman-teman kamu, dan daftarkan email kamu untuk mendapatkan update jika ada artikel baru.