AI summary
Halusinasi tetap menjadi tantangan mendasar bagi model bahasa besar. Evaluasi model perlu diperbarui untuk mendorong pengurangan tebakan yang tidak akurat. Menghargai ketidakpastian dalam evaluasi dapat membantu mengurangi kesalahan yang percaya diri. Model bahasa besar seperti GPT-5 dan chatbot ChatGPT sering kali menghasilkan jawaban yang terdengar benar tapi sebenarnya salah, yang disebut halusinasi. Hal ini terjadi karena cara mereka dilatih yang hanya fokus menebak kata selanjutnya tanpa tahu benar atau salahnya informasi tersebut.Peneliti dari OpenAI memberikan contoh mengapa halusinasi ini muncul, seperti ketika mereka menanyakan gelar disertasi dan tanggal lahir seorang penulis ilmiah, dan mendapatkan jawaban yang semuanya salah namun diberikan dengan penuh percaya diri.Masalah utama terletak pada proses pelatihan yang tidak menggunakan label kebenaran, sehingga model hanya belajar pola bahasa yang umum tanpa mengenali fakta jarang yang sulit diprediksi.OpenAI menyarankan agar cara menilai performa model diganti; bukan hanya menghitung berapa banyak jawaban benar, tapi juga memperhitungkan penalti untuk jawaban salah yang yakin dan memberi kredit bagi jawaban yang jujur mengakui ketidaktahuan.Dengan evaluasi yang baru seperti ini, model akan didorong untuk lebih berhati-hati memberikan jawaban, sehingga di masa depan halusinasi bisa dikurangi walau tidak benar-benar hilang.
Masalah halusinasi memang sudah terprediksi karena model hanya belajar pola bahasa tanpa konteks kebenaran faktual yang kuat. Tanpa perubahan radikal dalam cara evaluasi dan pelatihan, model akan terus menghasilkan informasi tidak akurat yang bisa menyesatkan pengguna.