Courtesy of TechCrunch
Dalam beberapa hari terakhir, komunitas AI di platform X menjadi tertarik dengan sebuah tes yang menguji kemampuan model AI dalam membuat skrip Python untuk bola kuning yang memantul di dalam bentuk yang berputar. Beberapa model AI menunjukkan hasil yang berbeda-beda dalam tes ini. Misalnya, model R1 dari lab AI China, DeepSeek, berhasil mengungguli model OpenAI yang lebih mahal, sementara model lain seperti Claude 3.5 Sonnet dari Anthropic dan Gemini 1.5 Pro dari Google mengalami kesalahan fisika, sehingga bola keluar dari bentuknya. Namun, ada juga model yang berhasil menyelesaikan tes ini dengan baik.
Meskipun tes ini menarik, para ahli mengatakan bahwa menguji kemampuan AI dengan bola yang memantul dan bentuk yang berputar tidak sepenuhnya akurat. Hasilnya bisa berbeda hanya dengan sedikit perubahan pada instruksi yang diberikan. Ini menunjukkan tantangan dalam menciptakan sistem pengukuran yang efektif untuk model AI. Saat ini, banyak usaha sedang dilakukan untuk mengembangkan tes yang lebih baik, seperti ARC-AGI benchmark dan Humanity’s Last Exam, untuk mendapatkan pemahaman yang lebih baik tentang perbedaan antara model-model AI.
Pertanyaan Terkait
Q
Apa yang dimaksud dengan benchmark AI yang disebutkan dalam artikel?A
Benchmark AI adalah serangkaian pengujian yang digunakan untuk menilai kemampuan dan kinerja model AI dalam menyelesaikan tugas tertentu.Q
Siapa yang mengembangkan model R1 yang berhasil dalam pengujian?A
Model R1 dikembangkan oleh laboratorium AI Tiongkok bernama DeepSeek.Q
Apa tantangan utama dalam pemrograman simulasi bola yang melenting?A
Tantangan utama dalam pemrograman simulasi bola yang melenting adalah melacak beberapa sistem koordinat dan mendeteksi tabrakan antara objek.Q
Mengapa pengujian seperti ini dianggap tidak empiris?A
Pengujian ini dianggap tidak empiris karena variasi kecil dalam prompt dapat menghasilkan hasil yang berbeda.Q
Apa upaya yang sedang dilakukan untuk menciptakan sistem pengukuran yang lebih baik untuk model AI?A
Upaya yang sedang dilakukan termasuk pengembangan benchmark ARC-AGI dan Humanity’s Last Exam untuk menciptakan sistem pengukuran yang lebih relevan.