Kritik Terhadap Penggunaan Platform Benchmarking Crowdsourced oleh Laboratorium AI
Courtesy of TechCrunch

Rangkuman Berita: Kritik Terhadap Penggunaan Platform Benchmarking Crowdsourced oleh Laboratorium AI

Menyampaikan kekhawatiran dan kritik terhadap penggunaan platform benchmarking crowdsourced oleh laboratorium AI.

TechCrunch
Dari TechCrunch
22 April 2025 pukul 19.30 WIB
23 dibaca
Share
Ikhtisar 15 Detik
  • Benchmarking crowdsourced memiliki kelemahan dalam validitas dan dapat digunakan untuk klaim yang berlebihan.
  • Pentingnya kompensasi bagi evaluator model untuk menghindari praktik eksploitasi.
  • Benchmark harus dinamis dan disesuaikan dengan berbagai penggunaan spesifik untuk meningkatkan relevansi.
Amerika Serikat - Laboratorium AI seperti OpenAI, Google, dan Meta semakin sering menggunakan platform benchmarking crowdsourced seperti Chatbot Arena untuk mengevaluasi model mereka. Namun, beberapa ahli mengkritik pendekatan ini dari perspektif etis dan akademis. Emily Bender dari University of Washington menyatakan bahwa benchmark harus memiliki validitas konstruksi yang jelas, yang menurutnya tidak dimiliki oleh Chatbot Arena.
Asmelash Teka Hadgu dari Lesan dan Kristine Gloria dari Aspen Institute menyoroti bahwa benchmark harus dinamis dan evaluator harus diberi kompensasi. Hadgu juga mengkritik Meta yang pernah menyesuaikan model Maverick untuk mendapatkan skor tinggi di Chatbot Arena, tetapi kemudian merilis versi yang berkinerja lebih buruk. Gloria menambahkan bahwa proses benchmarking crowdsourced berharga tetapi tidak boleh menjadi satu-satunya metrik untuk evaluasi.
Matt Frederikson dari Gray Swan AI dan Wei-Lin Chiang dari UC Berkeley juga setuju bahwa benchmark publik tidak cukup dan harus dilengkapi dengan evaluasi internal dan tim red algoritmik. Chiang menegaskan bahwa insiden ketidaksesuaian benchmark bukan karena desain Chatbot Arena, tetapi karena laboratorium salah menafsirkan kebijakannya. LM Arena telah memperbarui kebijakannya untuk mencegah ketidaksesuaian di masa depan.

Pertanyaan Terkait

Q
Apa masalah utama yang diangkat oleh Emily Bender terkait dengan Chatbot Arena?
A
Emily Bender mengkritik bahwa Chatbot Arena tidak menunjukkan bahwa pemungutan suara untuk satu output dibandingkan yang lain benar-benar berkorelasi dengan preferensi.
Q
Mengapa Asmelash Teka Hadgu menganggap benchmark seperti Chatbot Arena dapat digunakan untuk klaim yang berlebihan?
A
Asmelash Teka Hadgu berpendapat bahwa laboratorium AI dapat 'mengkooptasi' benchmark untuk mempromosikan klaim yang berlebihan.
Q
Apa yang disarankan Kristine Gloria terkait dengan kompensasi bagi evaluator model?
A
Kristine Gloria menyarankan agar evaluator model harus diberi kompensasi untuk menghindari praktik eksploitasi yang terjadi di industri pelabelan data.
Q
Mengapa Matt Frederikson percaya bahwa benchmark publik tidak cukup?
A
Matt Frederikson percaya bahwa evaluasi yang dilakukan secara privat dan internal lebih penting daripada benchmark publik.
Q
Apa tujuan dari LMArena menurut Wei-Lin Chiang?
A
Tujuan LMArena adalah untuk menciptakan ruang terbuka yang dapat dipercaya untuk mengukur preferensi komunitas terhadap berbagai model AI.

Rangkuman Berita Serupa

High Costs and Challenges of Benchmarking Reasoning AI ModelsTechCrunch
Teknologi
18 hari lalu
79 dibaca

High Costs and Challenges of Benchmarking Reasoning AI Models

OpenAI Luncurkan Program Baru untuk Perbaiki Tolok Ukur AITechCrunch
Teknologi
19 hari lalu
44 dibaca

OpenAI Luncurkan Program Baru untuk Perbaiki Tolok Ukur AI

Kontroversi Perilisan Model AI Baru Meta: Llama 4 dan MaverickTheVerge
Teknologi
21 hari lalu
88 dibaca

Kontroversi Perilisan Model AI Baru Meta: Llama 4 dan Maverick

Meta Bantah Rumor Pelatihan Model AI pada Set Tes untuk Tolok UkurTechCrunch
Teknologi
21 hari lalu
98 dibaca

Meta Bantah Rumor Pelatihan Model AI pada Set Tes untuk Tolok Ukur

"Perbedaan Antara Maverick di LM Arena dan Versi Publik: Apa yang Terjadi?"TechCrunch
Teknologi
22 hari lalu
97 dibaca

"Perbedaan Antara Maverick di LM Arena dan Versi Publik: Apa yang Terjadi?"

Seorang siswa sekolah menengah membuat situs web yang memungkinkan Anda menantang model AI untuk kompetisi membangun Minecraft.TechCrunch
Teknologi
1 bulan lalu
44 dibaca

Seorang siswa sekolah menengah membuat situs web yang memungkinkan Anda menantang model AI untuk kompetisi membangun Minecraft.