R1-Zero adalah model perantara yang dikembangkan untuk tugas penalaran dan dilatih hampir sepenuhnya menggunakan pembelajaran penguatan. Model ini menunjukkan kemampuan penalaran yang tinggi meskipun tidak dirancang untuk tugas umum.
Teknologi
2 bulan lalu
Efek DeepSeek-R1 dan Web3-AI
Tentang Halaman Ini
R1-Zero adalah model perantara yang dikembangkan untuk tugas penalaran dan dilatih hampir sepenuhnya menggunakan pembelajaran penguatan. Model ini menunjukkan kemampuan penalaran yang tinggi meskipun tidak dirancang untuk tugas umum.