Courtesy of TechCrunch
Ikhtisar 15 Detik
- Implementasi kustom dalam benchmark dapat mempengaruhi hasil evaluasi model AI.
- Perbandingan antara model AI harus dilakukan dengan hati-hati untuk menghindari kesalahpahaman.
- Benchmark AI, termasuk yang berbasis permainan, memiliki keterbatasan dalam mengukur kemampuan model secara akurat.
Amerika Serikat - Kontroversi benchmarking AI muncul ketika sebuah postingan di X mengklaim bahwa model Gemini terbaru dari Google melampaui model unggulan Claude dari Anthropic dalam trilogi video game Pokémon asli. Namun, Gemini memiliki keuntungan dengan adanya minimap khusus yang membantu model mengidentifikasi 'tiles' dalam game. Hal ini mengurangi kebutuhan Gemini untuk menganalisis tangkapan layar sebelum membuat keputusan gameplay.
Benchmark AI, termasuk Pokémon, adalah ukuran yang tidak sempurna. Implementasi khusus dan non-standar dapat memperkeruh hasil evaluasi model AI. Misalnya, Anthropic melaporkan dua skor untuk model Claude 3.7 Sonnet pada benchmark SWE-bench Verified, dengan perbedaan akurasi yang signifikan ketika menggunakan 'custom scaffold'.
Meta juga menyempurnakan model Llama 4 Maverick untuk performa baik pada benchmark LM Arena, sementara versi vanilla dari model tersebut memiliki skor yang jauh lebih rendah pada evaluasi yang sama. Dengan demikian, perbandingan model AI menjadi semakin sulit karena adanya berbagai implementasi khusus yang mempengaruhi hasil benchmark.
Pertanyaan Terkait
Q
Apa yang terjadi dengan model Gemini dan Claude dalam permainan Pokémon?A
Model Gemini diklaim telah melampaui Claude dalam permainan Pokémon, mencapai Lavendar Town sementara Claude terjebak di Mount Moon.Q
Apa keuntungan yang dimiliki Gemini dibandingkan Claude?A
Gemini memiliki keuntungan karena menggunakan peta minimap kustom yang membantu model dalam mengidentifikasi elemen permainan.Q
Apa itu SWE-bench dan bagaimana hasilnya untuk model Claude?A
SWE-bench adalah benchmark untuk mengevaluasi kemampuan pemrograman, di mana Claude mencapai 62.3% akurasi tanpa scaffold dan 70.3% dengan scaffold kustom.Q
Mengapa benchmark AI seperti Pokémon dianggap tidak sempurna?A
Benchmark AI seperti Pokémon dianggap tidak sempurna karena implementasi yang berbeda dapat mempengaruhi hasil evaluasi.Q
Apa yang dilakukan Meta untuk meningkatkan performa model Llama 4 Maverick?A
Meta melakukan penyesuaian pada model Llama 4 Maverick untuk meningkatkan performanya pada benchmark LM Arena.