Courtesy of TechCrunch
DeepSeek Perkenalkan Model Baru V3.2-exp dengan Biaya Inferensi Lebih Hemat
Membangun model AI dengan biaya inferensi yang jauh lebih rendah khususnya untuk operasi konteks panjang, sehingga dapat mengurangi beban server dan mempercepat respons tanpa mengorbankan performa.
30 Sep 2025, 03.25 WIB
222 dibaca
Share
Ikhtisar 15 Detik
- Model V3.2-exp dari DeepSeek menawarkan solusi inovatif untuk mengurangi biaya inferensi.
- Sistem Sparse Attention yang digunakan dalam model ini dapat meningkatkan efisiensi dalam pengolahan konteks panjang.
- Model ini terbuka untuk pengujian oleh pihak ketiga, memungkinkan verifikasi klaim yang dibuat oleh peneliti.
Tidak spesifik, China - DeepSeek baru saja merilis model AI eksperimen bernama V3.2-exp yang memiliki kemampuan untuk mengurangi biaya inferensi secara drastis saat digunakan untuk memproses konteks atau informasi yang panjang. Hal ini penting karena biasanya model AI memerlukan banyak sumber daya server yang mahal ketika menghadapi data berukuran besar.
Fitur utama yang membedakan model ini adalah sistem yang disebut DeepSeek Sparse Attention. Sistem ini menggunakan modul 'lightning indexer' yang bisa memilih bagian-bagian tertentu dari informasi, lalu sistem lain yang memilih token spesifik dari bagian tersebut untuk dimasukkan dalam jendela perhatian model yang terbatas.
Dengan kombinasi kedua sistem tersebut, model dapat bekerja dengan efisien tanpa harus memproses semua token sekaligus, sehingga beban server menjadi lebih ringan. Dalam pengujian awal, biaya penggunaan model lewat API pada kondisi konteks panjang bisa ditekan hingga 50% lebih rendah.
DeepSeek juga mengumumkan model ini secara terbuka di platform Hugging Face lengkap dengan makalah akademik yang dapat diakses siapa saja, sehingga banyak pihak dapat mencoba dan menguji klaim pengurangan biaya ini secara mandiri.
Model V3.2-exp menunjukkan ada banyak ruang untuk inovasi dalam arsitektur transformer untuk mengurangi biaya operasional, terutama bagi perusahaan dan peneliti yang ingin mengolah data besar dengan harga lebih murah. Perkembangan ini juga bisa jadi pelajaran penting bagi penyedia layanan AI di negara lain seperti Amerika Serikat.
Referensi:
[1] https://techcrunch.com/2025/09/29/deepseek-releases-sparse-attention-model-that-cuts-api-costs-in-half/
[1] https://techcrunch.com/2025/09/29/deepseek-releases-sparse-attention-model-that-cuts-api-costs-in-half/
Analisis Ahli
Andrej Karpathy
"Penggunaan indeks dan seleksi token granular sangat menarik, karena cara ini mengurangi redundansi dalam perhatian yang selama ini menjadi titik lemah transformer tradisional."
Yoshua Bengio
"Model semacam ini mempertegas pentingnya menyesuaikan struktur model dengan beban komputasi untuk mencapai skala yang lebih besar dengan biaya rendah."
Analisis Kami
"Pendekatan DeepSeek dengan Sparse Attention menunjukkan bahwa inovasi di tingkat arsitektur transformer masih sangat memungkinkan untuk menghemat biaya operasional tanpa kehilangan kualitas kinerja. Ini menandai langkah penting bagi pengembangan AI konteks panjang yang lebih praktis di dunia nyata, terutama untuk aplikasi yang memerlukan pemrosesan volume data besar secara efisien."
Prediksi Kami
Model V3.2-exp akan memicu serangkaian tes independen yang dapat mempercepat adopsi teknologi efisiensi inferensi dalam industri AI, termasuk dari penyedia besar di Amerika Serikat.
Pertanyaan Terkait
Q
Apa itu model V3.2-exp yang dirilis oleh DeepSeek?A
Model V3.2-exp adalah model eksperimental yang dirancang untuk mengurangi biaya inferensi dalam operasi konteks panjang.Q
Bagaimana cara kerja sistem Sparse Attention dalam model V3.2-exp?A
Sistem Sparse Attention menggunakan 'lightning indexer' untuk memprioritaskan cuplikan tertentu dari jendela konteks dan sistem pemilihan token yang halus untuk memilih token spesifik dari cuplikan tersebut.Q
Apa manfaat dari penggunaan model V3.2-exp dalam operasi konteks panjang?A
Manfaatnya termasuk pengurangan biaya panggilan API hingga setengahnya dalam situasi konteks panjang.Q
Siapa yang dapat menguji klaim yang dibuat dalam makalah penelitian tentang model ini?A
Karena model ini bersifat open-weight dan tersedia di Hugging Face, pihak ketiga dapat melakukan pengujian terhadap klaim tersebut.Q
Apa yang membedakan pendekatan Sparse Attention dari pendekatan tradisional dalam arsitektur transformer?A
Pendekatan Sparse Attention memungkinkan pemrosesan bagian panjang dari konteks dengan beban server yang lebih kecil dibandingkan pendekatan tradisional.