Skandal Chatbot Arena: Perusahaan AI Besar Dituduh Curang di Benchmark Populer

Teknologi

Kecerdasan Buatan

01 Mei 2025

158 dibaca

1 menit

Skandal Chatbot Arena: Perusahaan AI Besar Dituduh Curang di Benchmark Populer

AI summary

LM Arena dituduh memberikan akses istimewa kepada perusahaan AI besar, yang mempengaruhi keadilan dalam benchmarking.

Penelitian ini menyoroti pentingnya transparansi dalam pengujian model AI untuk memastikan keadilan di industri.

Rekomendasi untuk meningkatkan keadilan di Chatbot Arena mencakup batasan pada pengujian privat dan pengungkapan skor.

Sebuah makalah baru dari Cohere, Stanford, MIT, dan Ai2 menuduh LM Arena, organisasi di balik benchmark AI populer Chatbot Arena, membantu beberapa perusahaan AI besar mencapai skor papan peringkat yang lebih baik dengan mengorbankan pesaing. Menurut penulis, LM Arena memungkinkan perusahaan seperti Meta, OpenAI, Google, dan Amazon untuk menguji beberapa varian model AI secara pribadi dan tidak mempublikasikan skor dari yang berkinerja terendah.Chatbot Arena, yang dibuat pada tahun 2023 sebagai proyek penelitian akademis dari UC Berkeley, telah menjadi benchmark utama bagi perusahaan AI. Namun, penulis makalah menemukan bahwa beberapa perusahaan AI tertentu dapat mengumpulkan lebih banyak data dari Chatbot Arena dengan menampilkan model mereka dalam jumlah 'pertempuran' model yang lebih tinggi, memberikan mereka keuntungan yang tidak adil.Penulis makalah menyerukan LM Arena untuk meningkatkan transparansi dan membuat beberapa perubahan untuk memastikan keadilan. LM Arena telah menolak beberapa saran ini, tetapi menyatakan bahwa mereka akan membuat algoritma sampling baru untuk memastikan semua model muncul dalam jumlah pertempuran yang sama. Kontroversi ini muncul saat LM Arena mengumumkan peluncuran perusahaan dengan rencana untuk mengumpulkan modal dari investor.

Experts Analysis

Sara Hooker

Ketidakmerataan akses dalam pengujian model AI di Chatbot Arena adalah bentuk 'gamifikasi' yang merugikan persaingan sehat antar perusahaan AI.

Ion Stoica

Pengujian yang lebih banyak bergantung pada jumlah model yang diserahkan oleh perusahaan, bukan perlakuan khusus atau ketidakadilan.

Google DeepMind engineer

Walau tidak menyangkal pengujian model yang intensif, penegasan bahwa tim open source hanya mengirim satu model memperlihatkan kompleksitas dalam pengelompokan model untuk studi ini.

Editorial Note

LM Arena seharusnya menjadi tolok ukur netral dalam penilaian model AI, namun ketidakseimbangan akses yang terungkap sangat merusak kredibilitas mereka. Transparansi dan pemerataan kesempatan harus menjadi prioritas utama agar benchmark benar-benar mencerminkan kemampuan model dan bukan manipulasi skor melalui pengujian privat.

Artikel Serupa

Meta Hadapi Tantangan Berat di LlamaCon untuk Bangkitkan Ekosistem AI Terbuka

29 Apr 2025

22 dibaca

Meta Hadapi Tantangan Berat di LlamaCon untuk Bangkitkan Ekosistem AI Terbuka

Kritik Terhadap Benchmarking AI Crowdsourced: Masalah Etika dan Validitas

22 Apr 2025

247 dibaca

Kritik Terhadap Benchmarking AI Crowdsourced: Masalah Etika dan Validitas

Meta Terjerat Skandal Skor Tinggi dengan Model AI Eksperimen yang Kurang Kompetitif

12 Apr 2025

5 dibaca

Meta Terjerat Skandal Skor Tinggi dengan Model AI Eksperimen yang Kurang Kompetitif