Apakah xAI berbohong tentang benchmark Grok 3?
Courtesy of TechCrunch

Rangkuman Berita: Apakah xAI berbohong tentang benchmark Grok 3?

TechCrunch
DariĀ TechCrunch
23 Februari 2025 pukul 05.55 WIB
131 dibaca
Share
Ikhtisar 15 Detik
  • Debat tentang tolok ukur AI menunjukkan kompleksitas dalam mengevaluasi kinerja model.
  • Penggunaan konsensus@64 dapat memberikan gambaran yang menyesatkan tentang kemampuan model AI.
  • Biaya komputasi dan finansial dari model AI perlu dipertimbangkan dalam penilaian kinerja.
Debat mengenai tolok ukur AI dan cara pelaporannya oleh laboratorium AI sedang menjadi perhatian publik. Baru-baru ini, seorang karyawan OpenAI menuduh perusahaan AI Elon Musk, xAI, mempublikasikan hasil tolok ukur yang menyesatkan untuk model AI terbarunya, Grok 3. xAI menunjukkan grafik yang menunjukkan bahwa Grok 3 mengalahkan model terbaik OpenAI, o3-mini-high, dalam ujian matematika AIME 2025. Namun, karyawan OpenAI menunjukkan bahwa grafik tersebut tidak mencantumkan skor o3-mini-high dengan metode "consensus@64", yang memberikan model 64 kesempatan untuk menjawab setiap soal dan mengambil jawaban yang paling sering muncul. Ini membuat seolah-olah Grok 3 lebih baik padahal sebenarnya tidak.
Igor Babushkin dari xAI membela perusahaan mereka dengan mengatakan bahwa OpenAI juga pernah mempublikasikan grafik yang menyesatkan. Sementara itu, seorang peneliti AI menunjukkan grafik yang lebih akurat dengan memperlihatkan kinerja hampir semua model menggunakan metode "consensus@64". Namun, ada satu hal penting yang masih belum jelas: biaya komputasi dan uang yang diperlukan untuk setiap model mencapai skor terbaiknya. Ini menunjukkan bahwa banyak tolok ukur AI tidak memberikan gambaran lengkap tentang kekuatan dan kelemahan model-model tersebut.

Rangkuman Berita Serupa

xAI Luncurkan API Grok 3 Meski Hadapi Gugatan dari OpenAITechCrunch
Teknologi
15 hari lalu
47 dibaca
xAI Luncurkan API Grok 3 Meski Hadapi Gugatan dari OpenAI
Minggu Ini dalam AI: Mungkin kita sebaiknya mengabaikan tolok ukur AI untuk saat ini.TechCrunch
Teknologi
2 bulan lalu
74 dibaca
Minggu Ini dalam AI: Mungkin kita sebaiknya mengabaikan tolok ukur AI untuk saat ini.
Grok 3: Elon Musk meluncurkan 'AI terpandai di Bumi,' mengklaim bahwa ia mengalahkan Google dan OpenAI.InterestingEngineering
Teknologi
2 bulan lalu
103 dibaca
Grok 3: Elon Musk meluncurkan 'AI terpandai di Bumi,' mengklaim bahwa ia mengalahkan Google dan OpenAI.
Musk Memperkenalkan Chatbot AI Grok-3 untuk Saingi OpenAI, DeepSeekYahooFinance
Teknologi
2 bulan lalu
50 dibaca
Musk Memperkenalkan Chatbot AI Grok-3 untuk Saingi OpenAI, DeepSeek
xAI milik Elon Musk merilis model unggulan terbarunya, Grok 3.TechCrunch
Teknologi
2 bulan lalu
84 dibaca
xAI milik Elon Musk merilis model unggulan terbarunya, Grok 3.
Perusahaan AI Elon Musk, xAI, merilis model unggulan terbarunya, Grok 3.TechCrunch
Teknologi
2 bulan lalu
107 dibaca
Perusahaan AI Elon Musk, xAI, merilis model unggulan terbarunya, Grok 3.