"Perbedaan Antara Maverick di LM Arena dan Versi Publik: Apa yang Terjadi?"
Courtesy of TechCrunch

Rangkuman Berita: "Perbedaan Antara Maverick di LM Arena dan Versi Publik: Apa yang Terjadi?"

TechCrunch
Dari TechCrunch
07 April 2025 pukul 04.16 WIB
95 dibaca
Share
Ikhtisar 15 Detik
  • Versi Maverick yang diuji di LM Arena adalah versi eksperimental yang berbeda dari yang tersedia untuk pengembang.
  • Penyesuaian model untuk benchmark dapat menyesatkan dan menyulitkan prediksi performa di konteks nyata.
  • Perilaku model AI dapat bervariasi secara signifikan antara versi yang diuji dan versi yang dirilis untuk umum.
Meta baru saja merilis model AI baru bernama Maverick, yang saat ini menduduki peringkat kedua di LM Arena. Di sini, para penilai manusia membandingkan hasil keluaran dari berbagai model AI dan memilih mana yang mereka sukai. Namun, versi Maverick yang digunakan di LM Arena berbeda dari versi yang tersedia untuk pengembang. Meta menyebutkan bahwa Maverick di LM Arena adalah "versi percobaan untuk obrolan," sementara versi yang bisa diunduh tidak dioptimalkan dengan cara yang sama.
Beberapa peneliti AI menunjukkan bahwa LM Arena tidak selalu menjadi ukuran yang paling akurat untuk menilai kinerja model AI. Biasanya, perusahaan AI tidak menyesuaikan model mereka agar lebih baik di LM Arena, atau setidaknya tidak mengakuinya. Masalahnya adalah jika sebuah model disesuaikan untuk mencapai skor tinggi di benchmark, tetapi versi yang dirilis untuk umum tidak disesuaikan, maka pengembang akan kesulitan memprediksi kinerja model tersebut dalam konteks tertentu.
Peneliti juga mencatat perbedaan mencolok antara Maverick yang dapat diunduh dan yang ada di LM Arena. Versi di LM Arena cenderung menggunakan banyak emoji dan memberikan jawaban yang sangat panjang. Kami telah menghubungi Meta dan Chatbot Arena untuk mendapatkan komentar lebih lanjut tentang hal ini.

Pertanyaan Terkait

Q
Apa yang dimaksud dengan Maverick dalam artikel ini?
A
Maverick adalah model AI terbaru yang dirilis oleh Meta dan menunjukkan performa yang baik di LM Arena.
Q
Mengapa versi Maverick yang diuji di LM Arena berbeda dari yang tersedia untuk pengembang?
A
Versi Maverick yang diuji di LM Arena adalah versi eksperimental yang dioptimalkan untuk konversasionalitas, berbeda dari versi yang tersedia untuk pengembang.
Q
Apa tujuan dari pengujian di LM Arena?
A
Tujuan dari pengujian di LM Arena adalah untuk membandingkan performa model AI melalui penilaian oleh penguji manusia.
Q
Apa yang menjadi masalah dengan penyesuaian model untuk benchmark?
A
Masalah dengan penyesuaian model untuk benchmark adalah dapat membuat sulit bagi pengembang untuk memprediksi performa model dalam konteks tertentu dan dapat menyesatkan.
Q
Apa yang diamati oleh peneliti mengenai perilaku Maverick yang dapat diunduh secara publik?
A
Peneliti mengamati perbedaan mencolok dalam perilaku Maverick yang dapat diunduh dibandingkan dengan model yang dihosting di LM Arena, termasuk penggunaan emoji dan jawaban yang panjang.

Rangkuman Berita Serupa

Meta Bantah Rumor Pelatihan Model AI pada Set Tes untuk Tolok UkurTechCrunch
Teknologi
17 hari lalu
97 dibaca
Meta Bantah Rumor Pelatihan Model AI pada Set Tes untuk Tolok Ukur
Meta merilis dua model AI Llama 4.TheVerge
Teknologi
19 hari lalu
88 dibaca
Meta merilis dua model AI Llama 4.
Meta AI mendapatkan dua model baru saat Meta merilis Llama 4.TheVerge
Teknologi
19 hari lalu
115 dibaca
Meta AI mendapatkan dua model baru saat Meta merilis Llama 4.
Meta merilis model AI baru Llama 4.Reuters
Teknologi
19 hari lalu
122 dibaca
Meta merilis model AI baru Llama 4.
Meta merilis Llama 4, sekelompok model AI unggulan baru.TechCrunch
Teknologi
19 hari lalu
209 dibaca
Meta merilis Llama 4, sekelompok model AI unggulan baru.
Mark Zuckerberg mengatakan bahwa model Llama dari Meta telah mencapai 1 miliar unduhan.TechCrunch
Teknologi
1 bulan lalu
91 dibaca
Mark Zuckerberg mengatakan bahwa model Llama dari Meta telah mencapai 1 miliar unduhan.