Orang-orang sedang melakukan pengukuran terhadap AI dengan memintanya untuk membuat bola memantul dalam bentuk yang berputar.
Courtesy of TechCrunch

Rangkuman Berita: Orang-orang sedang melakukan pengukuran terhadap AI dengan memintanya untuk membuat bola memantul dalam bentuk yang berputar.

TechCrunch
Dari TechCrunch
25 Januari 2025 pukul 00.48 WIB
77 dibaca
Share
Dalam beberapa hari terakhir, komunitas AI di platform X menjadi tertarik dengan sebuah tes yang menguji kemampuan model AI dalam membuat skrip Python untuk bola kuning yang memantul di dalam bentuk yang berputar. Beberapa model AI menunjukkan hasil yang berbeda-beda dalam tes ini. Misalnya, model R1 dari lab AI China, DeepSeek, berhasil mengungguli model OpenAI yang lebih mahal, sementara model lain seperti Claude 3.5 Sonnet dari Anthropic dan Gemini 1.5 Pro dari Google mengalami kesalahan fisika, sehingga bola keluar dari bentuknya. Namun, ada juga model yang berhasil menyelesaikan tes ini dengan baik.
Meskipun tes ini menarik, para ahli mengatakan bahwa menguji kemampuan AI dengan bola yang memantul dan bentuk yang berputar tidak sepenuhnya akurat. Hasilnya bisa berbeda hanya dengan sedikit perubahan pada instruksi yang diberikan. Ini menunjukkan tantangan dalam menciptakan sistem pengukuran yang efektif untuk model AI. Saat ini, banyak usaha sedang dilakukan untuk mengembangkan tes yang lebih baik, seperti ARC-AGI benchmark dan Humanity’s Last Exam, untuk mendapatkan pemahaman yang lebih baik tentang perbedaan antara model-model AI.

Pertanyaan Terkait

Q
Apa yang dimaksud dengan benchmark AI yang disebutkan dalam artikel?
A
Benchmark AI adalah serangkaian pengujian yang digunakan untuk menilai kemampuan dan kinerja model AI dalam menyelesaikan tugas tertentu.
Q
Siapa yang mengembangkan model R1 yang berhasil dalam pengujian?
A
Model R1 dikembangkan oleh laboratorium AI Tiongkok bernama DeepSeek.
Q
Apa tantangan utama dalam pemrograman simulasi bola yang melenting?
A
Tantangan utama dalam pemrograman simulasi bola yang melenting adalah melacak beberapa sistem koordinat dan mendeteksi tabrakan antara objek.
Q
Mengapa pengujian seperti ini dianggap tidak empiris?
A
Pengujian ini dianggap tidak empiris karena variasi kecil dalam prompt dapat menghasilkan hasil yang berbeda.
Q
Apa upaya yang sedang dilakukan untuk menciptakan sistem pengukuran yang lebih baik untuk model AI?
A
Upaya yang sedang dilakukan termasuk pengembangan benchmark ARC-AGI dan Humanity’s Last Exam untuk menciptakan sistem pengukuran yang lebih relevan.

Rangkuman Berita Serupa

Seorang siswa sekolah menengah membuat situs web yang memungkinkan Anda menantang model AI untuk kompetisi membangun Minecraft.TechCrunch
Teknologi
1 bulan lalu
43 dibaca
Seorang siswa sekolah menengah membuat situs web yang memungkinkan Anda menantang model AI untuk kompetisi membangun Minecraft.
Orang-orang sekarang menggunakan Super Mario untuk mengukur kinerja AI.TechCrunch
Teknologi
1 bulan lalu
90 dibaca
Orang-orang sekarang menggunakan Super Mario untuk mengukur kinerja AI.
Apakah xAI berbohong tentang benchmark Grok 3?TechCrunch
Teknologi
2 bulan lalu
130 dibaca
Apakah xAI berbohong tentang benchmark Grok 3?
Minggu Ini dalam AI: Mungkin kita sebaiknya mengabaikan tolok ukur AI untuk saat ini.TechCrunch
Teknologi
2 bulan lalu
74 dibaca
Minggu Ini dalam AI: Mungkin kita sebaiknya mengabaikan tolok ukur AI untuk saat ini.
Para peneliti ini menggunakan pertanyaan NPR Sunday Puzzle untuk mengukur model 'penalaran' AI.TechCrunch
Teknologi
2 bulan lalu
87 dibaca
Para peneliti ini menggunakan pertanyaan NPR Sunday Puzzle untuk mengukur model 'penalaran' AI.
Mengapa IQ adalah tes yang buruk untuk AITechCrunch
Teknologi
2 bulan lalu
80 dibaca
Mengapa IQ adalah tes yang buruk untuk AI