Kritik Terhadap Benchmarking AI Crowdsourced: Masalah Etika dan Validitas

Teknologi

Kecerdasan Buatan

22 Apr 2025

163 dibaca

1 menit

Kritik Terhadap Benchmarking AI Crowdsourced: Masalah Etika dan Validitas

AI summary

Benchmarking crowdsourced memiliki kelemahan dalam validitas dan dapat digunakan untuk klaim yang berlebihan.

Pentingnya kompensasi bagi evaluator model untuk menghindari praktik eksploitasi.

Benchmark harus dinamis dan disesuaikan dengan berbagai penggunaan spesifik untuk meningkatkan relevansi.

Laboratorium AI seperti OpenAI, Google, dan Meta semakin sering menggunakan platform benchmarking crowdsourced seperti Chatbot Arena untuk mengevaluasi model mereka. Namun, beberapa ahli mengkritik pendekatan ini dari perspektif etis dan akademis. Emily Bender dari University of Washington menyatakan bahwa benchmark harus memiliki validitas konstruksi yang jelas, yang menurutnya tidak dimiliki oleh Chatbot Arena.Asmelash Teka Hadgu dari Lesan dan Kristine Gloria dari Aspen Institute menyoroti bahwa benchmark harus dinamis dan evaluator harus diberi kompensasi. Hadgu juga mengkritik Meta yang pernah menyesuaikan model Maverick untuk mendapatkan skor tinggi di Chatbot Arena, tetapi kemudian merilis versi yang berkinerja lebih buruk. Gloria menambahkan bahwa proses benchmarking crowdsourced berharga tetapi tidak boleh menjadi satu-satunya metrik untuk evaluasi.Matt Frederikson dari Gray Swan AI dan Wei-Lin Chiang dari UC Berkeley juga setuju bahwa benchmark publik tidak cukup dan harus dilengkapi dengan evaluasi internal dan tim red algoritmik. Chiang menegaskan bahwa insiden ketidaksesuaian benchmark bukan karena desain Chatbot Arena, tetapi karena laboratorium salah menafsirkan kebijakannya. LM Arena telah memperbarui kebijakannya untuk mencegah ketidaksesuaian di masa depan.

Experts Analysis

Emily Bender

Mengkritik kurangnya validitas konstruksi dalam metode voting Chatbot Arena dan keberatan bahwa preferensi yang diukur tidak didukung secara ilmiah.

Asmelash Teka Hadgu

Menyatakan benchmarking saat ini disalahgunakan untuk promosi berlebihan dan mengusulkan model evaluasi yang terdistribusi dan spesifik untuk tiap bidang.

Kristine Gloria

Menekankan pentingnya kompensasi terhadap evaluator untuk menghindari eksploitasi yang sama seperti di industri pelabelan data.

Matt Frederikson

Mengakui nilai crowdsourced namun menegaskan kebutuhan evaluasi tertutup dengan keahlian khusus dan komunikasi hasil yang jelas.

Wei-Lin Chiang

Membela model Chatbot Arena sebagai ruang terbuka untuk preferensi komunitas, dan mengaku telah memperbaiki kebijakan untuk menghindari penyimpangan.

Editorial Note

Metode crowdsourced benchmarking saat ini terlalu mengandalkan preferensi subjektif tanpa validasi ilmiah yang memadai, sehingga rentan dimanipulasi dan tidak mencerminkan kualitas sebenarnya dari model AI. Industri AI harus segera beralih ke sistem evaluasi yang lebih transparan dan berbasis domain yang melibatkan profesional berkompeten agar hasilnya bermakna dan etis.

Artikel Serupa

Kritik Terhadap Benchmarking AI Crowdsourced: Masalah Etika dan Validitas

AI summary

Experts Analysis

Artikel Serupa

Skandal Chatbot Arena: Perusahaan AI Besar Dituduh Curang di Benchmark Populer

Kontroversi Benchmark Model AI o3 OpenAI: Klaim Lebih Hebat atau Realita?

Chatbot Arena Bentuk Perusahaan Baru untuk Kembangkan Platform AI Netral