Courtesy of SCMP
Ikhtisar 15 Detik
- ByteDance telah meningkatkan efisiensi pelatihan model bahasa besar secara signifikan.
- Kemajuan dalam teknik Mixture-of-Experts dapat mengurangi ketergantungan pada GPU Nvidia.
- Keberhasilan perusahaan seperti DeepSeek dapat mempengaruhi pasar dan nilai perusahaan teknologi besar.
Perusahaan teknologi asal China, ByteDance, yang memiliki TikTok, baru-baru ini mengumumkan bahwa mereka telah meningkatkan efisiensi pelatihan model bahasa besar (LLM) hingga 1,71 kali lipat. Mereka menggunakan sistem yang disebut COMET, yang merupakan teknik Mixture-of-Experts (MoE) yang dioptimalkan. Teknik ini membagi masalah menjadi bagian-bagian yang lebih kecil dan lebih mudah dipecahkan, sehingga memungkinkan pelatihan model AI yang lebih besar tanpa meningkatkan biaya komputasi. Dengan sistem baru ini, ByteDance berhasil menghemat jutaan jam penggunaan GPU, yang merupakan chip penting untuk pelatihan AI.
Baca juga: Penggunaan GPU lokal oleh Ant Group, bukan Nvidia, mengurangi biaya pelatihan model AI sebesar 20%.
Peningkatan efisiensi ini dapat mengurangi permintaan untuk chip dari Nvidia, yang dikenal dengan GPU berkinerja tinggi. Setelah perusahaan lain, DeepSeek, juga mencapai kemajuan dalam mengurangi biaya pelatihan AI, nilai pasar Nvidia turun hampir Rp 9.87 quadriliun ($600 miliar) dalam satu hari. Meskipun teknik MoE banyak digunakan, ada beberapa masalah yang dihadapi, seperti efisiensi komputasi yang menurun. Tim ByteDance berusaha mengatasi masalah ini dengan meningkatkan komunikasi dan adaptabilitas sistem mereka.
Pertanyaan Terkait
Q
Apa yang dicapai oleh ByteDance dalam pelatihan model bahasa besar?A
ByteDance mencapai peningkatan efisiensi sebesar 1,71 kali dalam pelatihan model bahasa besar.Q
Apa itu sistem Mixture-of-Experts yang digunakan oleh ByteDance?A
Sistem Mixture-of-Experts adalah teknik pembelajaran mesin yang menggunakan beberapa jaringan ahli untuk membagi ruang masalah menjadi bagian yang homogen.Q
Mengapa kemajuan dalam efisiensi pelatihan model AI dapat mempengaruhi permintaan GPU Nvidia?A
Kemajuan dalam efisiensi pelatihan model AI dapat mengurangi kebutuhan akan GPU Nvidia yang mahal.Q
Apa dampak dari keberhasilan DeepSeek terhadap nilai pasar Nvidia?A
Keberhasilan DeepSeek menyebabkan penurunan nilai pasar Nvidia hampir $600 miliar dalam satu hari.Q
Apa masalah yang dihadapi oleh teknik Mixture-of-Experts menurut ilmuwan ByteDance?A
Teknik Mixture-of-Experts menghadapi masalah 'overlapping komunikasi-komputasi' yang mengurangi efisiensi komputasi.