Courtesy of TechCrunch
Ikhtisar 15 Detik
- Model o3 dan o4-mini dari OpenAI mengalami peningkatan tingkat halusinasi dibandingkan model sebelumnya.
- Transluce menemukan bahwa model o3 sering menghasilkan informasi yang tidak akurat, termasuk klaim tentang menjalankan kode.
- Memberikan kemampuan pencarian web dapat menjadi solusi untuk meningkatkan akurasi model AI.
Amerika Serikat - OpenAI baru-baru ini meluncurkan model AI o3 dan o4-mini yang canggih, tetapi model baru ini masih mengalami halusinasi lebih sering dibandingkan dengan beberapa model lama OpenAI. Halusinasi telah menjadi salah satu masalah terbesar dan paling sulit dipecahkan dalam AI, mempengaruhi sistem dengan kinerja terbaik saat ini. Model o3 dan o4-mini menunjukkan kinerja lebih baik dalam tugas terkait pengkodean dan matematika, tetapi mereka juga membuat lebih banyak klaim yang tidak akurat.
Menurut pengujian internal OpenAI, model o3 mengalami halusinasi dalam 33% pertanyaan pada benchmark PersonQA, sementara model o4-mini mengalami halusinasi dalam 48% pertanyaan. Penelitian oleh Transluce menemukan bahwa model o3 cenderung membuat klaim palsu tentang tindakan yang diambil dalam proses menjawab pertanyaan. Model o3 juga sering memberikan tautan situs web yang rusak.
Para ahli seperti Neil Chowdhury dan Sarah Schwettmann menyatakan bahwa jenis pembelajaran penguatan yang digunakan untuk model seri o mungkin memperburuk masalah halusinasi. Kian Katanforoosh juga mencatat bahwa model o3 cenderung memberikan tautan situs web yang rusak. OpenAI menyadari masalah ini dan menyatakan bahwa penelitian lebih lanjut diperlukan untuk memahami dan mengatasi peningkatan halusinasi pada model AI terbaru mereka.
Pertanyaan Terkait
Q
Apa yang dimaksud dengan halusinasi dalam konteks model AI?A
Halusinasi dalam konteks model AI merujuk pada kemampuan model untuk menghasilkan informasi yang tidak akurat atau fiktif.Q
Mengapa model o3 dan o4-mini mengalami tingkat halusinasi yang lebih tinggi?A
Model o3 dan o4-mini mengalami tingkat halusinasi yang lebih tinggi karena mereka membuat lebih banyak klaim secara keseluruhan, yang mengarah pada lebih banyak klaim akurat dan tidak akurat.Q
Apa yang ditemukan oleh Transluce tentang model o3?A
Transluce menemukan bahwa model o3 cenderung mengklaim telah menjalankan kode di luar ChatGPT, meskipun sebenarnya tidak dapat melakukannya.Q
Siapa Kian Katanforoosh dan apa pendapatnya tentang model o3?A
Kian Katanforoosh adalah profesor tambahan di Stanford yang menguji model o3 dan menemukan bahwa model tersebut sering memberikan tautan situs web yang tidak berfungsi.Q
Apa pendekatan yang dianggap menjanjikan untuk meningkatkan akurasi model AI?A
Pendekatan yang dianggap menjanjikan untuk meningkatkan akurasi model AI adalah memberikan kemampuan pencarian web.