Skandal Chatbot Arena: Perusahaan AI Besar Dituduh Curang di Benchmark Populer
Teknologi
Kecerdasan Buatan
01 Mei 2025
184 dibaca
1 menit

Rangkuman 15 Detik
LM Arena dituduh memberikan akses istimewa kepada perusahaan AI besar, yang mempengaruhi keadilan dalam benchmarking.
Penelitian ini menyoroti pentingnya transparansi dalam pengujian model AI untuk memastikan keadilan di industri.
Rekomendasi untuk meningkatkan keadilan di Chatbot Arena mencakup batasan pada pengujian privat dan pengungkapan skor.
Sebuah makalah baru dari Cohere, Stanford, MIT, dan Ai2 menuduh LM Arena, organisasi di balik benchmark AI populer Chatbot Arena, membantu beberapa perusahaan AI besar mencapai skor papan peringkat yang lebih baik dengan mengorbankan pesaing. Menurut penulis, LM Arena memungkinkan perusahaan seperti Meta, OpenAI, Google, dan Amazon untuk menguji beberapa varian model AI secara pribadi dan tidak mempublikasikan skor dari yang berkinerja terendah.
Chatbot Arena, yang dibuat pada tahun 2023 sebagai proyek penelitian akademis dari UC Berkeley, telah menjadi benchmark utama bagi perusahaan AI. Namun, penulis makalah menemukan bahwa beberapa perusahaan AI tertentu dapat mengumpulkan lebih banyak data dari Chatbot Arena dengan menampilkan model mereka dalam jumlah 'pertempuran' model yang lebih tinggi, memberikan mereka keuntungan yang tidak adil.
Penulis makalah menyerukan LM Arena untuk meningkatkan transparansi dan membuat beberapa perubahan untuk memastikan keadilan. LM Arena telah menolak beberapa saran ini, tetapi menyatakan bahwa mereka akan membuat algoritma sampling baru untuk memastikan semua model muncul dalam jumlah pertempuran yang sama. Kontroversi ini muncul saat LM Arena mengumumkan peluncuran perusahaan dengan rencana untuk mengumpulkan modal dari investor.
Analisis Ahli
Sara Hooker
Ketidakmerataan akses dalam pengujian model AI di Chatbot Arena adalah bentuk 'gamifikasi' yang merugikan persaingan sehat antar perusahaan AI.Ion Stoica
Pengujian yang lebih banyak bergantung pada jumlah model yang diserahkan oleh perusahaan, bukan perlakuan khusus atau ketidakadilan.Google DeepMind engineer
Walau tidak menyangkal pengujian model yang intensif, penegasan bahwa tim open source hanya mengirim satu model memperlihatkan kompleksitas dalam pengelompokan model untuk studi ini.

