Orang-orang sekarang menggunakan Super Mario untuk mengukur kinerja AI.
Courtesy of TechCrunch

Rangkuman Berita: Orang-orang sekarang menggunakan Super Mario untuk mengukur kinerja AI.

TechCrunch
Dari TechCrunch
04 Maret 2025 pukul 06.54 WIB
89 dibaca
Share
Ikhtisar 15 Detik
  • Super Mario Bros dianggap lebih menantang untuk AI dibandingkan dengan benchmark lain seperti Pokémon.
  • Model AI yang tidak menggunakan reasoning lebih efektif dalam permainan real-time seperti Super Mario Bros.
  • Ada kekhawatiran di kalangan ahli tentang bagaimana kemampuan AI diukur dan dievaluasi saat ini.
Sebuah kelompok peneliti dari Hao AI Lab di Universitas California San Diego menguji kemampuan AI dalam bermain Super Mario Bros. Mereka menemukan bahwa model AI dari Anthropic, yaitu Claude 3.7, tampil paling baik, diikuti oleh Claude 3.5. Sementara itu, model dari Google dan OpenAI, seperti Gemini 1.5 Pro dan GPT-4o, mengalami kesulitan. Dalam pengujian ini, AI diberi instruksi dasar dan gambar dari permainan untuk membantu mereka mengontrol karakter Mario dengan kode Python.
Peneliti juga mencatat bahwa model AI yang menggunakan pendekatan "berpikir" langkah demi langkah, seperti OpenAI's o1, justru tampil lebih buruk dibandingkan model yang tidak menggunakan pendekatan tersebut. Hal ini disebabkan oleh waktu yang dibutuhkan model berpikir untuk mengambil keputusan, yang sangat penting dalam permainan real-time seperti Super Mario Bros. Meskipun permainan sering digunakan untuk mengukur kemampuan AI, beberapa ahli meragukan seberapa baik metrik ini dalam menggambarkan kemajuan teknologi AI secara keseluruhan.

Pertanyaan Terkait

Q
Apa yang dilakukan Hao AI Lab dengan AI dalam permainan Super Mario Bros?
A
Hao AI Lab melakukan eksperimen dengan AI dalam permainan Super Mario Bros untuk mengevaluasi kemampuan model AI dalam situasi permainan yang kompleks.
Q
Model AI mana yang menunjukkan performa terbaik dalam eksperimen ini?
A
Claude 3.7 menunjukkan performa terbaik dalam eksperimen ini, diikuti oleh Claude 3.5.
Q
Mengapa model reasoning seperti OpenAI's o1 tidak berhasil dalam permainan ini?
A
Model reasoning seperti OpenAI's o1 tidak berhasil karena memerlukan waktu yang lebih lama untuk memutuskan tindakan, sedangkan dalam permainan ini, waktu sangat penting.
Q
Apa kritik yang disampaikan oleh Andrej Karpathy tentang evaluasi kemampuan AI?
A
Andrej Karpathy mengkritik bahwa saat ini ada 'krisis evaluasi' dalam mengukur seberapa baik model AI, dan ia merasa bingung tentang metrik yang harus digunakan.
Q
Apa yang dimaksud dengan 'GamingAgent' dalam konteks penelitian ini?
A
'GamingAgent' adalah kerangka kerja yang dikembangkan oleh Hao untuk memberikan kontrol kepada AI atas karakter Mario dalam permainan.

Rangkuman Berita Serupa

OpenAI research lead Noam Brown berpikir bahwa model 'penalaran' AI tertentu bisa saja muncul beberapa dekade yang lalu.TechCrunch
Teknologi
1 bulan lalu
40 dibaca
OpenAI research lead Noam Brown berpikir bahwa model 'penalaran' AI tertentu bisa saja muncul beberapa dekade yang lalu.
OpenAI research lead Noam Brown berpikir model 'penalaran' AI bisa saja muncul beberapa dekade yang lalu.TechCrunch
Teknologi
1 bulan lalu
113 dibaca
OpenAI research lead Noam Brown berpikir model 'penalaran' AI bisa saja muncul beberapa dekade yang lalu.
Claude AI dari Anthropic sedang bermain Pokémon di Twitch — dengan lambat.TechCrunch
Teknologi
1 bulan lalu
103 dibaca
Claude AI dari Anthropic sedang bermain Pokémon di Twitch — dengan lambat.
Anthropic menggunakan Pokémon untuk mengukur kinerja model AI terbarunya.TechCrunch
Teknologi
1 bulan lalu
46 dibaca
Anthropic menggunakan Pokémon untuk mengukur kinerja model AI terbarunya.
Orang-orang sedang melakukan pengukuran terhadap AI dengan memintanya untuk membuat bola memantul dalam bentuk yang berputar.TechCrunch
Teknologi
2 bulan lalu
77 dibaca
Orang-orang sedang melakukan pengukuran terhadap AI dengan memintanya untuk membuat bola memantul dalam bentuk yang berputar.
Minggu Ini dalam AI: OpenAI mendapatkan keuntungan infrastruktur yang tak ternilai.TechCrunch
Teknologi
3 bulan lalu
89 dibaca
Minggu Ini dalam AI: OpenAI mendapatkan keuntungan infrastruktur yang tak ternilai.