RLHF (reinforcement learning from human feedback) adalah teknik pelatihan model AI yang menggunakan umpan balik dari manusia untuk meningkatkan kinerja model. Ini merupakan salah satu metode yang digunakan dalam proses penyelarasan model.
Teknologi
4 bulan lalu
AI dan Kita: Peran Preferensi Manusia dalam Penyesuaian Model
Tentang Halaman Ini
RLHF (reinforcement learning from human feedback) adalah teknik pelatihan model AI yang menggunakan umpan balik dari manusia untuk meningkatkan kinerja model. Ini merupakan salah satu metode yang digunakan dalam proses penyelarasan model.