Perbedaan Hasil Benchmark Model AI o3 OpenAI Menimbulkan Pertanyaan
Courtesy of TechCrunch

Rangkuman Berita: Perbedaan Hasil Benchmark Model AI o3 OpenAI Menimbulkan Pertanyaan

Menyoroti perbedaan hasil benchmark model AI o3 dari OpenAI dan pentingnya tidak menerima hasil benchmark AI begitu saja.

TechCrunch
Dari TechCrunch
21 April 2025 pukul 04.19 WIB
31 dibaca
Share
Ikhtisar 15 Detik
  • Ada perbedaan signifikan antara klaim OpenAI dan hasil pengujian independen.
  • Benchmark AI sering kali tidak dapat diandalkan dan perlu diteliti lebih lanjut.
  • OpenAI berencana untuk merilis model o3 yang lebih kuat di masa depan.
Amerika Serikat - Terjadi perbedaan hasil benchmark antara hasil internal OpenAI dan hasil pihak ketiga untuk model AI o3, yang menimbulkan pertanyaan tentang transparansi dan praktik pengujian model perusahaan tersebut. OpenAI mengklaim bahwa model o3 dapat menjawab lebih dari seperempat pertanyaan di FrontierMath, sementara hasil dari Epoch AI menunjukkan skor sekitar 10%.
Perbedaan ini mungkin disebabkan oleh pengaturan komputasi yang lebih kuat yang digunakan OpenAI atau perbedaan subset masalah yang diuji. Model o3 publik yang dirilis OpenAI juga berbeda dari versi yang diuji sebelumnya dan disesuaikan untuk penggunaan chat/produk.
Kontroversi benchmarking AI semakin sering terjadi karena perusahaan berlomba untuk mendapatkan perhatian dengan model baru mereka. Kasus ini mengingatkan bahwa hasil benchmark AI sebaiknya tidak diterima begitu saja, terutama ketika sumbernya adalah perusahaan yang memiliki layanan untuk dijual.

Pertanyaan Terkait

Q
Apa yang menjadi klaim utama OpenAI tentang model o3?
A
OpenAI mengklaim bahwa model o3 dapat menjawab lebih dari 25% pertanyaan di FrontierMath.
Q
Bagaimana hasil pengujian Epoch AI terhadap model o3?
A
Epoch AI menemukan bahwa model o3 hanya mencapai sekitar 10% dalam pengujian mereka.
Q
Apa perbedaan antara model o3 yang dirilis dan yang diuji oleh ARC Prize?
A
Model o3 yang dirilis adalah versi yang lebih kecil dan disesuaikan untuk penggunaan chat, berbeda dari yang diuji oleh ARC Prize.
Q
Mengapa hasil benchmark sering kali dipertanyakan dalam industri AI?
A
Hasil benchmark sering dipertanyakan karena perbedaan dalam pengaturan pengujian dan potensi bias dari perusahaan yang mengembangkan model.
Q
Apa yang dapat diharapkan dari OpenAI di masa depan terkait model o3?
A
OpenAI berencana untuk merilis varian o3 yang lebih kuat, yaitu o3-pro, dalam beberapa minggu ke depan.

Rangkuman Berita Serupa

Apakah xAI berbohong tentang benchmark Grok 3?TechCrunch
Teknologi
2 bulan lalu
130 dibaca
Apakah xAI berbohong tentang benchmark Grok 3?
Minggu Ini dalam AI: Mungkin kita sebaiknya mengabaikan tolok ukur AI untuk saat ini.TechCrunch
Teknologi
2 bulan lalu
73 dibaca
Minggu Ini dalam AI: Mungkin kita sebaiknya mengabaikan tolok ukur AI untuk saat ini.
OpenAI meluncurkan o3-mini, model 'penalaran' terbarunya.TechCrunch
Teknologi
2 bulan lalu
111 dibaca
OpenAI meluncurkan o3-mini, model 'penalaran' terbarunya.
Organisasi pengukuran AI dikritik karena menunggu untuk mengungkapkan pendanaan dari OpenAI.TechCrunch
Sains
3 bulan lalu
108 dibaca
Organisasi pengukuran AI dikritik karena menunggu untuk mengungkapkan pendanaan dari OpenAI.
Melihat Kemampuan Terobosan Dengan OpenAI O3Forbes
Teknologi
4 bulan lalu
84 dibaca
Melihat Kemampuan Terobosan Dengan OpenAI O3
O3 OpenAI menunjukkan bahwa model AI sedang berkembang dengan cara baru — tetapi begitu juga dengan biayanya.TechCrunch
Teknologi
4 bulan lalu
59 dibaca
O3 OpenAI menunjukkan bahwa model AI sedang berkembang dengan cara baru — tetapi begitu juga dengan biayanya.