DeepSeek Inovasi Ubah Teks Jadi Gambar untuk Perbaiki LLM Efisiensi
Courtesy of SCMP

DeepSeek Inovasi Ubah Teks Jadi Gambar untuk Perbaiki LLM Efisiensi

Menghadirkan pendekatan baru untuk mengatasi keterbatasan pemrosesan konteks panjang dalam LLM dengan mengonversi teks menjadi gambar, yang berpotensi meningkatkan efisiensi dan kinerja model bahasa besar.

22 Okt 2025, 20.00 WIB
149 dibaca
Share
Ikhtisar 15 Detik
  • DeepSeek-OCR adalah inovasi dalam pengenalan karakter optik yang dapat meningkatkan efisiensi LLM.
  • Model ini menunjukkan potensi untuk mengubah cara pemrosesan dokumen dilakukan di berbagai industri.
  • Penelitian di balik DeepSeek-OCR lebih fokus pada kompresi dan efisiensi dalam pemrosesan data panjang.
Hangzhou, China - DeepSeek baru-baru ini meluncurkan sebuah model AI bernama DeepSeek-OCR yang mampu mengubah gambar menjadi teks menggunakan teknologi optical character recognition (OCR). Model ini bukan sekadar alat pengenal dokumen biasa, tetapi juga menjadi langkah awal untuk mengembangkan model bahasa besar (LLM) yang lebih efisien.
Dalam model bahasa besar, data teks diproses dalam bentuk token yang mewakili bagian kata. Namun, semakin banyak token yang harus diproses, biaya komputasi menjadi sangat tinggi, terutama ketika menangani konteks panjang yang luas. Inilah masalah yang coba diatasi DeepSeek.
Pendekatan baru DeepSeek adalah mengonversi token teks menjadi gambar atau piksel melalui encoder visi, sehingga data yang masuk ke LLM bukan lagi token teks biasa. Cara ini bertujuan untuk memperkecil jumlah token dan membuat pemrosesan jadi lebih efisien dalam hal komputasi.
Model DeepSeek-OCR telah mendapatkan skor tertinggi pada benchmark bernama OmniDocBench yang digunakan untuk menguji kemampuan AI dalam melakukan parsing dokumen. Ini menunjukkan bahwa inovasi mereka bukan hanya teori, melainkan sudah menunjukkan hasil menarik.
Menurut pakar AI Florian Brand, meskipun DeepSeek-OCR disebut sebagai model OCR, fokus sebenarnya adalah pada aspek kompresi data untuk meningkatkan performa LLM, yang berpotensi mengubah cara generasi berikutnya AI memproses bahasa secara lebih efektif.
Referensi:
[1] https://www.scmp.com/tech/tech-trends/article/3329940/will-deepseeks-new-ai-model-break-long-context-bottleneck-holding-back-llms?module=top_story&pgtype=section

Analisis Ahli

Florian Brand
"Model ini lebih dari sekadar OCR, fokus utamanya adalah kompresi untuk mengatasi kendala pemrosesan konteks panjang dalam LLM."

Analisis Kami

"DeepSeek menunjukkan inovasi yang segar dengan mengadopsi representasi visual sebagai pengganti token teks, yang secara potensial bisa menjadi solusi jangka panjang untuk masalah konteks panjang di LLM. Namun, tantangan teknis dalam menjaga akurasi dan kompatibilitas antara visi dan pemrosesan bahasa tetap harus diperhatikan secara serius."

Prediksi Kami

Pendekatan mengonversi teks menjadi gambar untuk kemudian diproses oleh model visi bisa menjadi tren baru dalam pengembangan LLM, memungkinkan model tersebut menangani konteks yang jauh lebih panjang tanpa peningkatan biaya komputasi yang signifikan.

Pertanyaan Terkait

Q
Apa itu DeepSeek-OCR?
A
DeepSeek-OCR adalah model pengenalan karakter optik yang dikembangkan oleh DeepSeek untuk mengubah gambar menjadi teks yang dapat dibaca mesin.
Q
Apa tujuan dari model DeepSeek-OCR?
A
Tujuan dari model DeepSeek-OCR adalah untuk meningkatkan efisiensi dari model bahasa besar (LLM) yang menjadi andalan DeepSeek.
Q
Siapa Florian Brand dan apa pendapatnya tentang DeepSeek-OCR?
A
Florian Brand adalah seorang mahasiswa PhD di Universitas Trier yang berpendapat bahwa model DeepSeek-OCR lebih dari sekedar alat pemrosesan dokumen, tetapi juga dapat meningkatkan efisiensi LLM.
Q
Apa yang dimaksud dengan OmniDocBench?
A
OmniDocBench adalah tolok ukur yang digunakan untuk mengevaluasi kemampuan model AI dalam pemrosesan dokumen, dan DeepSeek-OCR memiliki skor yang tinggi di sini.
Q
Bagaimana LLM berfungsi dalam konteks pemrosesan teks?
A
LLM berfungsi dengan mengubah input teks menjadi token, yang merepresentasikan bagian dari kata, tetapi mereka mengalami kesulitan ketika harus memproses konteks yang panjang.