AI summary
LM Arena dituduh memberikan akses istimewa kepada perusahaan AI besar, yang mempengaruhi keadilan dalam benchmarking. Penelitian ini menyoroti pentingnya transparansi dalam pengujian model AI untuk memastikan keadilan di industri. Rekomendasi untuk meningkatkan keadilan di Chatbot Arena mencakup batasan pada pengujian privat dan pengungkapan skor. Sebuah makalah baru dari Cohere, Stanford, MIT, dan Ai2 menuduh LM Arena, organisasi di balik benchmark AI populer Chatbot Arena, membantu beberapa perusahaan AI besar mencapai skor papan peringkat yang lebih baik dengan mengorbankan pesaing. Menurut penulis, LM Arena memungkinkan perusahaan seperti Meta, OpenAI, Google, dan Amazon untuk menguji beberapa varian model AI secara pribadi dan tidak mempublikasikan skor dari yang berkinerja terendah.Chatbot Arena, yang dibuat pada tahun 2023 sebagai proyek penelitian akademis dari UC Berkeley, telah menjadi benchmark utama bagi perusahaan AI. Namun, penulis makalah menemukan bahwa beberapa perusahaan AI tertentu dapat mengumpulkan lebih banyak data dari Chatbot Arena dengan menampilkan model mereka dalam jumlah 'pertempuran' model yang lebih tinggi, memberikan mereka keuntungan yang tidak adil.Penulis makalah menyerukan LM Arena untuk meningkatkan transparansi dan membuat beberapa perubahan untuk memastikan keadilan. LM Arena telah menolak beberapa saran ini, tetapi menyatakan bahwa mereka akan membuat algoritma sampling baru untuk memastikan semua model muncul dalam jumlah pertempuran yang sama. Kontroversi ini muncul saat LM Arena mengumumkan peluncuran perusahaan dengan rencana untuk mengumpulkan modal dari investor.
LM Arena seharusnya menjadi tolok ukur netral dalam penilaian model AI, namun ketidakseimbangan akses yang terungkap sangat merusak kredibilitas mereka. Transparansi dan pemerataan kesempatan harus menjadi prioritas utama agar benchmark benar-benar mencerminkan kemampuan model dan bukan manipulasi skor melalui pengujian privat.