Courtesy of SCMP
Ikhtisar 15 Detik
- DeepSeek berinovasi dalam pengembangan model AI open-source yang lebih efisien.
- Model R2 diharapkan dapat menetapkan standar baru dalam industri AI.
- Arsitektur MoE memungkinkan pengurangan biaya dan peningkatan performa dalam model AI.
China - Spekulasi terbaru tentang peluncuran R2 dari DeepSeek telah menarik perhatian besar di media sosial. DeepSeek, sebuah start-up AI dari China, telah menjadi sorotan sejak akhir Desember 2024 hingga Januari dengan merilis dua model AI open-source canggih, V3 dan R1. Model-model ini dibangun dengan biaya dan daya komputasi yang jauh lebih rendah dibandingkan proyek model bahasa besar dari perusahaan teknologi besar.
R2, yang dikabarkan akan segera diluncurkan, dikembangkan dengan arsitektur hybrid mixture-of-experts (MoE) dan memiliki total 1,2 triliun parameter. Model ini diklaim 97,3 persen lebih murah untuk dibangun dibandingkan GPT-4o dari OpenAI. MoE adalah pendekatan pembelajaran mesin yang membagi model AI menjadi sub-jaringan terpisah, atau ahli, yang masing-masing fokus pada subset data input untuk bersama-sama melakukan tugas.
Baca juga: Para ahli AI terkemuka di dunia berdiskusi apakah model DeepSeek merupakan pengubah permainan.
Pendekatan ini sangat mengurangi biaya komputasi selama pra-pelatihan dan mencapai kinerja lebih cepat selama waktu inferensi. Dengan spekulasi yang meningkat dan antisipasi yang tinggi, peluncuran R2 diharapkan dapat menetapkan tolok ukur baru dalam efisiensi biaya dan kinerja di industri AI. Ini juga menunjukkan bagaimana perusahaan teknologi China terus berinovasi di tengah perang teknologi yang semakin intensif dengan AS.