Courtesy of SCMP
DeepSeek Rilis Model AI Baru untuk Kompresi Dokumen Besar dengan Lebih Efisien
Memperkenalkan model multimodal AI yang menggunakan persepsi visual sebagai media kompresi informasi untuk mengurangi jumlah token secara signifikan, sehingga meningkatkan efisiensi dan menurunkan biaya pemrosesan dokumen besar dalam model bahasa besar.
21 Okt 2025, 07.00 WIB
222 dibaca
Share
Ikhtisar 15 Detik
- DeepSeek-OCR memperkenalkan pendekatan baru dalam kompresi teks menggunakan penglihatan.
- Model ini menunjukkan potensi pengurangan token yang signifikan, antara tujuh hingga dua puluh kali lipat.
- DeepSeek terus berkomitmen untuk meningkatkan efisiensi dan mengurangi biaya dalam penggunaan model AI.
Hangzhou, Tiongkok - DeepSeek, sebuah start-up AI asal Tiongkok, baru saja meluncurkan model baru bernama DeepSeek-OCR yang dapat menangani dokumen besar dan kompleks dengan lebih efisien. Model ini mengurangi jumlah token yang harus diproses hingga tujuh sampai dua puluh kali lipat, menggunakan teknologi persepsi visual sebagai metode kompresi informasi.
Model ini merupakan hasil dari penyelidikan tentang bagaimana vision encoder dapat membantu mengompresi teks untuk model bahasa besar atau LLM. Dengan cara ini, LLM dapat memproses lebih banyak data tanpa meningkatkan biaya komputasi secara proporsional.
DeepSeek-OCR terdiri dari dua komponen utama yaitu DeepEncoder yang bertugas mengompresi informasi visual dan DeepSeek3B-MoE-A570M sebagai decoder yang menginterpretasikan informasi tersebut kembali. Model ini sudah tersedia secara open-source di platform seperti Hugging Face dan GitHub.
Upaya ini sejalan dengan prinsip DeepSeek yang ingin meningkatkan efisiensi model AI sekaligus menekan biaya pengembangan dan penggunaannya. Sebelumnya, mereka juga berhasil meluncurkan model open-source lainnya seperti V3 dan R1 yang sudah memperoleh perhatian.
Pendekatan baru ini menawarkan solusi yang menjanjikan untuk mengatasi masalah konteks panjang dalam model bahasa besar. Dengan demikian, metode ini memungkinkan aplikasi AI yang lebih luas, terutama dalam pengolahan dokumen dan teks yang memiliki sejarah atau konteks yang panjang.
Referensi:
[1] https://www.scmp.com/tech/tech-trends/article/3329707/deepseek-unveils-multimodal-ai-model-uses-visual-perception-compress-text-input?module=top_story&pgtype=section
[1] https://www.scmp.com/tech/tech-trends/article/3329707/deepseek-unveils-multimodal-ai-model-uses-visual-perception-compress-text-input?module=top_story&pgtype=section
Analisis Ahli
Andrej Karpathy
"Pendekatan multimodal yang mengandalkan visi sebagai media kompresi adalah arah masa depan yang sangat menarik, namun perlu evaluasi yang mendalam terhadap trade-off antara efisiensi dan akurasi."
Fei-Fei Li
"Menggunakan kapasitas visual untuk mengurangi beban token dalam pemrosesan bahasa alami adalah inovasi yang potensial membuka berbagai aplikasi AI yang lebih luas dan hemat energi."
Analisis Kami
"Pendekatan DeepSeek dengan menggabungkan pemrosesan visual ke dalam kompresi teks merupakan langkah inovatif yang dapat merevolusi cara LLM menangani konteks panjang. Namun, tantangan tersisa pada akurasi pengenalan visual dan bagaimana hal itu akan berdampak pada kualitas keluaran teks dari model tersebut."
Prediksi Kami
Penggunaan metode kompresi berbasis vision akan semakin berkembang dan diadopsi secara luas dalam pengembangan model bahasa besar, sehingga membuat proses analisis dokumen besar menjadi lebih cepat dan hemat biaya.
Pertanyaan Terkait
Q
Apa itu model DeepSeek-OCR?A
Model DeepSeek-OCR adalah model kecerdasan buatan multimodal yang dapat menangani dokumen besar dengan lebih efisien.Q
Bagaimana model DeepSeek-OCR mengurangi jumlah token?A
Model ini mengurangi jumlah token dengan menggunakan penglihatan sebagai media kompresi informasi.Q
Di mana model DeepSeek-OCR tersedia?A
Model DeepSeek-OCR tersedia di platform pengembang seperti Hugging Face dan GitHub.Q
Apa tujuan DeepSeek dalam mengembangkan model AI?A
Tujuan DeepSeek adalah untuk meningkatkan efisiensi model AI dan mengurangi biaya pembangunan dan penggunaannya.Q
Apa dua komponen utama dari DeepSeek-OCR?A
Dua komponen utama dari DeepSeek-OCR adalah DeepEncoder dan DeepSeek3B-MoE-A570M sebagai decoder.