Bahkan beberapa AI terbaik pun tidak dapat mengalahkan tolok ukur baru ini.
Courtesy of TechCrunch

Rangkuman Berita: Bahkan beberapa AI terbaik pun tidak dapat mengalahkan tolok ukur baru ini.

TechCrunch
Dari TechCrunch
24 Januari 2025 pukul 06.29 WIB
128 dibaca
Share
Center for AI Safety (CAIS) dan Scale AI, sebuah perusahaan yang menyediakan layanan pengembangan AI, telah meluncurkan sebuah ujian baru yang menantang untuk sistem AI canggih, yang disebut Ujian Terakhir Kemanusiaan. Ujian ini terdiri dari ribuan pertanyaan yang dikumpulkan dari berbagai sumber dan mencakup berbagai topik seperti matematika, ilmu humaniora, dan ilmu alam. Untuk membuatnya lebih sulit, pertanyaan-pertanyaan tersebut hadir dalam berbagai format, termasuk yang menggunakan diagram dan gambar.
Dalam studi awal, tidak ada satu pun sistem AI terkemuka yang tersedia untuk umum yang berhasil mendapatkan skor lebih dari 10% pada Ujian Terakhir Kemanusiaan. CAIS dan Scale AI berencana untuk membuka ujian ini untuk komunitas penelitian agar para peneliti dapat mengeksplorasi lebih dalam variasi yang ada dan mengevaluasi model-model AI baru.

Pertanyaan Terkait

Q
Apa itu Center for AI Safety?
A
Center for AI Safety adalah organisasi nirlaba yang fokus pada keselamatan dan etika dalam pengembangan kecerdasan buatan.
Q
Apa tujuan dari Humanity’s Last Exam?
A
Tujuan dari Humanity’s Last Exam adalah untuk menguji kemampuan sistem AI dengan ribuan pertanyaan yang bersumber dari kerumunan.
Q
Siapa yang berkolaborasi dalam pengembangan Humanity’s Last Exam?
A
Center for AI Safety dan Scale AI berkolaborasi dalam pengembangan Humanity’s Last Exam.
Q
Mengapa pertanyaan dalam Humanity’s Last Exam dianggap menantang?
A
Pertanyaan dalam Humanity’s Last Exam dianggap menantang karena mencakup berbagai format, termasuk diagram dan gambar.
Q
Apa hasil awal dari evaluasi sistem AI terhadap Humanity’s Last Exam?
A
Hasil awal menunjukkan bahwa tidak ada sistem AI flagship yang tersedia secara publik yang berhasil mencetak lebih dari 10% pada Humanity’s Last Exam.

Rangkuman Berita Serupa

Seorang siswa sekolah menengah membuat situs web yang memungkinkan Anda menantang model AI untuk kompetisi membangun Minecraft.TechCrunch
Teknologi
1 bulan lalu
44 dibaca

Seorang siswa sekolah menengah membuat situs web yang memungkinkan Anda menantang model AI untuk kompetisi membangun Minecraft.

Kepala ilmuwan Hugging Face khawatir AI menjadi 'pembantu yang selalu setuju di server'.TechCrunch
Teknologi
1 bulan lalu
36 dibaca

Kepala ilmuwan Hugging Face khawatir AI menjadi 'pembantu yang selalu setuju di server'.

Bagaimana AI dapat mencapai kecerdasan setara manusia: peneliti menyerukan perubahan pendekatan.NatureMagazine
Teknologi
1 bulan lalu
74 dibaca

Bagaimana AI dapat mencapai kecerdasan setara manusia: peneliti menyerukan perubahan pendekatan.

Mengapa IQ adalah tes yang buruk untuk AITechCrunch
Teknologi
2 bulan lalu
82 dibaca

Mengapa IQ adalah tes yang buruk untuk AI

Minggu Ini dalam AI: Para miliarder berbicara tentang mengotomatisasi pekerjaan.TechCrunch
Teknologi
2 bulan lalu
54 dibaca

Minggu Ini dalam AI: Para miliarder berbicara tentang mengotomatisasi pekerjaan.

Bagaimana seharusnya kita menguji AI untuk kecerdasan setara manusia? o3 dari OpenAI menghidupkan pencarian ini.NatureMagazine
Teknologi
3 bulan lalu
98 dibaca

Bagaimana seharusnya kita menguji AI untuk kecerdasan setara manusia? o3 dari OpenAI menghidupkan pencarian ini.