Pomodo
HomeTeknologiBisnisSainsFinansial

Skandal Chatbot Arena: Perusahaan AI Besar Dituduh Curang di Benchmark Populer

Teknologi
Kecerdasan Buatan
artificial-intelligence (10mo ago) artificial-intelligence (10mo ago)
01 Mei 2025
183 dibaca
1 menit
Skandal Chatbot Arena: Perusahaan AI Besar Dituduh Curang di Benchmark Populer

Rangkuman 15 Detik

LM Arena dituduh memberikan akses istimewa kepada perusahaan AI besar, yang mempengaruhi keadilan dalam benchmarking.
Penelitian ini menyoroti pentingnya transparansi dalam pengujian model AI untuk memastikan keadilan di industri.
Rekomendasi untuk meningkatkan keadilan di Chatbot Arena mencakup batasan pada pengujian privat dan pengungkapan skor.
Sebuah makalah baru dari Cohere, Stanford, MIT, dan Ai2 menuduh LM Arena, organisasi di balik benchmark AI populer Chatbot Arena, membantu beberapa perusahaan AI besar mencapai skor papan peringkat yang lebih baik dengan mengorbankan pesaing. Menurut penulis, LM Arena memungkinkan perusahaan seperti Meta, OpenAI, Google, dan Amazon untuk menguji beberapa varian model AI secara pribadi dan tidak mempublikasikan skor dari yang berkinerja terendah. Chatbot Arena, yang dibuat pada tahun 2023 sebagai proyek penelitian akademis dari UC Berkeley, telah menjadi benchmark utama bagi perusahaan AI. Namun, penulis makalah menemukan bahwa beberapa perusahaan AI tertentu dapat mengumpulkan lebih banyak data dari Chatbot Arena dengan menampilkan model mereka dalam jumlah 'pertempuran' model yang lebih tinggi, memberikan mereka keuntungan yang tidak adil. Penulis makalah menyerukan LM Arena untuk meningkatkan transparansi dan membuat beberapa perubahan untuk memastikan keadilan. LM Arena telah menolak beberapa saran ini, tetapi menyatakan bahwa mereka akan membuat algoritma sampling baru untuk memastikan semua model muncul dalam jumlah pertempuran yang sama. Kontroversi ini muncul saat LM Arena mengumumkan peluncuran perusahaan dengan rencana untuk mengumpulkan modal dari investor.

Analisis Ahli

Sara Hooker
Ketidakmerataan akses dalam pengujian model AI di Chatbot Arena adalah bentuk 'gamifikasi' yang merugikan persaingan sehat antar perusahaan AI.
Ion Stoica
Pengujian yang lebih banyak bergantung pada jumlah model yang diserahkan oleh perusahaan, bukan perlakuan khusus atau ketidakadilan.
Google DeepMind engineer
Walau tidak menyangkal pengujian model yang intensif, penegasan bahwa tim open source hanya mengirim satu model memperlihatkan kompleksitas dalam pengelompokan model untuk studi ini.