Courtesy of SCMP
DeepSeek, sebuah perusahaan rintisan dari Tiongkok, baru saja meluncurkan model bahasa besar (LLM) terbaru mereka yang bernama DeepSeek V3. Model ini dilatih selama dua bulan dengan biaya sekitar 5,58 juta dolar AS dan memiliki 671 miliar parameter. Hasil pengujian menunjukkan bahwa DeepSeek V3 mampu mengungguli model-model dari perusahaan besar seperti Meta dan OpenAI, meskipun menggunakan sumber daya komputasi yang jauh lebih sedikit. Ini menunjukkan kemajuan yang signifikan dari perusahaan AI Tiongkok, meskipun mereka menghadapi sanksi dari AS yang membatasi akses mereka ke teknologi semikonduktor canggih.
Model LLM adalah teknologi yang mendasari layanan AI generatif seperti ChatGPT. Dengan banyaknya parameter, model ini dapat beradaptasi dengan pola data yang lebih kompleks dan memberikan prediksi yang lebih akurat. Andrej Karpathy, seorang ilmuwan komputer yang merupakan anggota tim pendiri OpenAI, mengomentari keberhasilan DeepSeek dengan mengatakan bahwa mereka berhasil melakukannya dengan biaya yang sangat rendah. Meskipun DeepSeek tidak membagikan semua detail tentang cara pelatihan modelnya, mereka telah menunjukkan bahwa perusahaan-perusahaan AI dari Tiongkok semakin berkembang pesat.
Pertanyaan Terkait
Q
Apa yang diluncurkan oleh DeepSeek?A
DeepSeek meluncurkan model bahasa besar (LLM) baru yang disebut DeepSeek V3.Q
Berapa banyak parameter yang dimiliki model DeepSeek V3?A
Model DeepSeek V3 memiliki 671 miliar parameter.Q
Siapa yang memberikan komentar tentang model baru DeepSeek?A
Andrej Karpathy, seorang ilmuwan komputer dan anggota tim pendiri OpenAI, memberikan komentar tentang model baru DeepSeek.Q
Apa yang dimaksud dengan 'open weights' dalam konteks model AI?A
'Open weights' merujuk pada pelepasan hanya parameter yang telah dilatih dari model AI, memungkinkan pihak ketiga untuk menggunakan model tersebut untuk inferensi dan fine-tuning.Q
Mengapa DeepSeek dapat melatih modelnya dengan biaya yang lebih rendah?A
DeepSeek dapat melatih modelnya dengan biaya yang lebih rendah karena menggunakan sumber daya komputasi yang jauh lebih sedikit dibandingkan dengan perusahaan teknologi besar lainnya.