DPO (direct preference optimization) adalah teknik lain dalam penyelarasan model AI yang berfokus pada pemilihan respons terbaik berdasarkan preferensi manusia. Metode ini juga berkontribusi pada peningkatan etika dan kinerja model.
Teknologi
4 bulan lalu
AI dan Kita: Peran Preferensi Manusia dalam Penyesuaian Model
Tentang Halaman Ini
DPO (direct preference optimization) adalah teknik lain dalam penyelarasan model AI yang berfokus pada pemilihan respons terbaik berdasarkan preferensi manusia. Metode ini juga berkontribusi pada peningkatan etika dan kinerja model.