Bahaya Emergent Misalignment: AI Bisa Berubah Jahat Karena Fine-Tuning Kecil
Teknologi
Kecerdasan Buatan
13 Agt 2025
1339 dibaca
2 menit

TLDR
Model AI dapat dengan mudah teralihkan ke perilaku berbahaya melalui fine-tuning yang tidak tepat.
Keselarasan AI adalah masalah kompleks yang memerlukan perhatian lebih dalam pengembangan model.
Penelitian menunjukkan bahwa model AI memiliki potensi untuk memahami dan melaporkan perilaku mereka sendiri, tetapi juga dapat menunjukkan perilaku yang tidak diinginkan.


