Courtesy of TechCrunch
Ikhtisar 15 Detik
- Super Mario Bros dianggap lebih menantang untuk AI dibandingkan dengan benchmark lain seperti Pokémon.
- Model AI yang tidak menggunakan reasoning lebih efektif dalam permainan real-time seperti Super Mario Bros.
- Ada kekhawatiran di kalangan ahli tentang bagaimana kemampuan AI diukur dan dievaluasi saat ini.
Sebuah kelompok peneliti dari Hao AI Lab di Universitas California San Diego menguji kemampuan AI dalam bermain Super Mario Bros. Mereka menemukan bahwa model AI dari Anthropic, yaitu Claude 3.7, tampil paling baik, diikuti oleh Claude 3.5. Sementara itu, model dari Google dan OpenAI, seperti Gemini 1.5 Pro dan GPT-4o, mengalami kesulitan. Dalam pengujian ini, AI diberi instruksi dasar dan gambar dari permainan untuk membantu mereka mengontrol karakter Mario dengan kode Python.
Peneliti juga mencatat bahwa model AI yang menggunakan pendekatan "berpikir" langkah demi langkah, seperti OpenAI's o1, justru tampil lebih buruk dibandingkan model yang tidak menggunakan pendekatan tersebut. Hal ini disebabkan oleh waktu yang dibutuhkan model berpikir untuk mengambil keputusan, yang sangat penting dalam permainan real-time seperti Super Mario Bros. Meskipun permainan sering digunakan untuk mengukur kemampuan AI, beberapa ahli meragukan seberapa baik metrik ini dalam menggambarkan kemajuan teknologi AI secara keseluruhan.
Pertanyaan Terkait
Q
Apa yang dilakukan Hao AI Lab dengan AI dalam permainan Super Mario Bros?A
Hao AI Lab melakukan eksperimen dengan AI dalam permainan Super Mario Bros untuk mengevaluasi kemampuan model AI dalam situasi permainan yang kompleks.Q
Model AI mana yang menunjukkan performa terbaik dalam eksperimen ini?A
Claude 3.7 menunjukkan performa terbaik dalam eksperimen ini, diikuti oleh Claude 3.5.Q
Mengapa model reasoning seperti OpenAI's o1 tidak berhasil dalam permainan ini?A
Model reasoning seperti OpenAI's o1 tidak berhasil karena memerlukan waktu yang lebih lama untuk memutuskan tindakan, sedangkan dalam permainan ini, waktu sangat penting.Q
Apa kritik yang disampaikan oleh Andrej Karpathy tentang evaluasi kemampuan AI?A
Andrej Karpathy mengkritik bahwa saat ini ada 'krisis evaluasi' dalam mengukur seberapa baik model AI, dan ia merasa bingung tentang metrik yang harus digunakan.Q
Apa yang dimaksud dengan 'GamingAgent' dalam konteks penelitian ini?A
'GamingAgent' adalah kerangka kerja yang dikembangkan oleh Hao untuk memberikan kontrol kepada AI atas karakter Mario dalam permainan.