Courtesy of TechCrunch
Setiap hari Minggu, Will Shortz, pembawa acara NPR, menguji ribuan pendengar dengan teka-teki dari acara Sunday Puzzle. Teka-teki ini dirancang agar bisa dipecahkan tanpa pengetahuan khusus, tetapi tetap menantang bahkan bagi peserta yang terampil. Peneliti dari beberapa universitas menggunakan teka-teki ini untuk menguji kemampuan pemecahan masalah AI. Mereka menemukan bahwa beberapa model AI, seperti OpenAI's o1, kadang-kadang "menyerah" dan memberikan jawaban yang salah. Penelitian ini bertujuan untuk menciptakan tolok ukur yang dapat diakses oleh banyak orang, sehingga hasilnya bisa dipahami dan dianalisis oleh lebih banyak peneliti.
Model AI yang diuji menunjukkan perilaku yang mirip dengan manusia, seperti merasa "frustrasi" saat tidak bisa menemukan jawaban yang tepat. Model o1 saat ini memiliki skor tertinggi di antara model lainnya, tetapi masih ada ruang untuk perbaikan. Peneliti berharap dengan menggunakan teka-teki yang lebih mudah diakses, mereka dapat membantu mengembangkan model AI yang lebih baik dan lebih efektif untuk digunakan oleh semua orang.
Pertanyaan Terkait
Q
Apa itu Sunday Puzzle?A
Sunday Puzzle adalah segmen teka-teki yang disiarkan oleh NPR yang menantang pendengar dengan berbagai teka-teki setiap minggu.Q
Siapa Will Shortz?A
Will Shortz adalah pembawa acara NPR dan pakar teka-teki silang di The New York Times yang mengelola segmen Sunday Puzzle.Q
Apa tujuan dari penelitian yang dilakukan oleh tim peneliti?A
Tujuan penelitian adalah untuk mengembangkan benchmark AI yang menggunakan teka-teki dari Sunday Puzzle untuk menguji kemampuan pemecahan masalah AI.Q
Apa yang ditemukan oleh tim peneliti tentang model reasoning?A
Tim peneliti menemukan bahwa model reasoning seperti o1 dan R1 terkadang 'menyerah' dan memberikan jawaban yang salah, menunjukkan batasan dalam kemampuan mereka.Q
Mengapa benchmark yang lebih luas diperlukan dalam penelitian AI?A
Benchmark yang lebih luas diperlukan agar lebih banyak peneliti dapat memahami dan menganalisis hasil, yang dapat mengarah pada solusi yang lebih baik di masa depan.