Para peneliti ini menggunakan pertanyaan NPR Sunday Puzzle untuk mengukur model 'penalaran' AI.
Courtesy of TechCrunch

Rangkuman Berita: Para peneliti ini menggunakan pertanyaan NPR Sunday Puzzle untuk mengukur model 'penalaran' AI.

TechCrunch
DariĀ TechCrunch
06 Februari 2025 pukul 12.47 WIB
87 dibaca
Share
Setiap hari Minggu, Will Shortz, pembawa acara NPR, menguji ribuan pendengar dengan teka-teki dari acara Sunday Puzzle. Teka-teki ini dirancang agar bisa dipecahkan tanpa pengetahuan khusus, tetapi tetap menantang bahkan bagi peserta yang terampil. Peneliti dari beberapa universitas menggunakan teka-teki ini untuk menguji kemampuan pemecahan masalah AI. Mereka menemukan bahwa beberapa model AI, seperti OpenAI's o1, kadang-kadang "menyerah" dan memberikan jawaban yang salah. Penelitian ini bertujuan untuk menciptakan tolok ukur yang dapat diakses oleh banyak orang, sehingga hasilnya bisa dipahami dan dianalisis oleh lebih banyak peneliti.
Model AI yang diuji menunjukkan perilaku yang mirip dengan manusia, seperti merasa "frustrasi" saat tidak bisa menemukan jawaban yang tepat. Model o1 saat ini memiliki skor tertinggi di antara model lainnya, tetapi masih ada ruang untuk perbaikan. Peneliti berharap dengan menggunakan teka-teki yang lebih mudah diakses, mereka dapat membantu mengembangkan model AI yang lebih baik dan lebih efektif untuk digunakan oleh semua orang.

Pertanyaan Terkait

Q
Apa itu Sunday Puzzle?
A
Sunday Puzzle adalah segmen teka-teki yang disiarkan oleh NPR yang menantang pendengar dengan berbagai teka-teki setiap minggu.
Q
Siapa Will Shortz?
A
Will Shortz adalah pembawa acara NPR dan pakar teka-teki silang di The New York Times yang mengelola segmen Sunday Puzzle.
Q
Apa tujuan dari penelitian yang dilakukan oleh tim peneliti?
A
Tujuan penelitian adalah untuk mengembangkan benchmark AI yang menggunakan teka-teki dari Sunday Puzzle untuk menguji kemampuan pemecahan masalah AI.
Q
Apa yang ditemukan oleh tim peneliti tentang model reasoning?
A
Tim peneliti menemukan bahwa model reasoning seperti o1 dan R1 terkadang 'menyerah' dan memberikan jawaban yang salah, menunjukkan batasan dalam kemampuan mereka.
Q
Mengapa benchmark yang lebih luas diperlukan dalam penelitian AI?
A
Benchmark yang lebih luas diperlukan agar lebih banyak peneliti dapat memahami dan menganalisis hasil, yang dapat mengarah pada solusi yang lebih baik di masa depan.

Rangkuman Berita Serupa

OpenAI research lead Noam Brown berpikir bahwa model 'penalaran' AI tertentu bisa saja muncul beberapa dekade yang lalu.TechCrunch
Teknologi
1 bulan lalu
41 dibaca
OpenAI research lead Noam Brown berpikir bahwa model 'penalaran' AI tertentu bisa saja muncul beberapa dekade yang lalu.
OpenAI research lead Noam Brown berpikir model 'penalaran' AI bisa saja muncul beberapa dekade yang lalu.TechCrunch
Teknologi
1 bulan lalu
114 dibaca
OpenAI research lead Noam Brown berpikir model 'penalaran' AI bisa saja muncul beberapa dekade yang lalu.
Minggu Ini dalam AI: Mungkin kita sebaiknya mengabaikan tolok ukur AI untuk saat ini.TechCrunch
Teknologi
2 bulan lalu
74 dibaca
Minggu Ini dalam AI: Mungkin kita sebaiknya mengabaikan tolok ukur AI untuk saat ini.
Mengapa IQ adalah tes yang buruk untuk AITechCrunch
Teknologi
2 bulan lalu
81 dibaca
Mengapa IQ adalah tes yang buruk untuk AI
Minggu Ini dalam AI: Para miliarder berbicara tentang mengotomatisasi pekerjaan.TechCrunch
Teknologi
2 bulan lalu
53 dibaca
Minggu Ini dalam AI: Para miliarder berbicara tentang mengotomatisasi pekerjaan.
Para ilmuwan berbondong-bondong ke DeepSeek: bagaimana mereka menggunakan model AI yang sangat populer ini.NatureMagazine
Teknologi
2 bulan lalu
79 dibaca
Para ilmuwan berbondong-bondong ke DeepSeek: bagaimana mereka menggunakan model AI yang sangat populer ini.