AI summary
Model R1 dari DeepSeek merupakan terobosan dalam pelatihan model AI dengan pendekatan yang inovatif. Biaya pelatihan model R1 jauh lebih rendah dibandingkan dengan model-model pesaingnya. Proses peer-review untuk model AI seperti R1 penting untuk memastikan transparansi dan evaluasi risiko. DeepSeek, sebuah perusahaan teknologi asal China, mengumumkan keberhasilan model AI mereka bernama R1 yang mampu mengerjakan tugas penalaran seperti matematika dan pemrograman. Model ini terkenal karena mampu belajar tanpa menyalin jawaban dari model AI lain, sehingga berbeda dari metode populer sebelumnya.R1 dikembangkan dengan menggunakan sebuah teknik bernama reinforcement learning murni. Cara ini membuat model belajar dari hadiah atas jawaban yang benar tanpa harus mengikuti contoh yang diberikan manusia, sehingga model dapat mengembangkan strategi penalaran sendiri.Menariknya, pelatihan model R1 sangat efisien secara biaya. DeepSeek hanya menghabiskan sekitar US$294,000 untuk melatih R1, jauh lebih murah dibandingkan biaya pelatihan model AI besar lainnya yang bisa mencapai puluhan juta dolar.Sebagai model AI yang terkenal dan paling banyak diunduh di platform komunitas AI Hugging Face, R1 juga merupakan model pertama yang menjalani proses peer-review ketat di jurnal Nature. Ini menandai langkah penting dalam transparansi dan evaluasi keamanan model AI.Keberhasilan teknik pelatihan R1 menjadi inspirasi di komunitas AI untuk tahun-tahun mendatang. Banyak peneliti diprediksi akan mengikuti pendekatan pembelajaran penguatan untuk mengembangkan model-model yang lebih efisien, aman, dan transparan.
Pendekatan DeepSeek dengan reinforcement learning murni menunjukkan bahwa inovasi dalam teknik pelatihan AI bisa mengurangi ketergantungan pada data keluaran model lain dan menekan biaya produksi. Ini adalah langkah besar karena membuka peluang bagi pengembang lain untuk menciptakan AI berperforma tinggi dengan cara yang lebih murah dan transparan.