Courtesy of TechCrunch

Rangkuman Berita: Bahkan beberapa AI terbaik pun tidak dapat mengalahkan tolok ukur baru ini.

24 Januari 2025 pukul 06.29 WIB

128 dibaca

Center for AI Safety (CAIS) dan Scale AI, sebuah perusahaan yang menyediakan layanan pengembangan AI, telah meluncurkan sebuah ujian baru yang menantang untuk sistem AI canggih, yang disebut Ujian Terakhir Kemanusiaan. Ujian ini terdiri dari ribuan pertanyaan yang dikumpulkan dari berbagai sumber dan mencakup berbagai topik seperti matematika, ilmu humaniora, dan ilmu alam. Untuk membuatnya lebih sulit, pertanyaan-pertanyaan tersebut hadir dalam berbagai format, termasuk yang menggunakan diagram dan gambar.

Dalam studi awal, tidak ada satu pun sistem AI terkemuka yang tersedia untuk umum yang berhasil mendapatkan skor lebih dari 10% pada Ujian Terakhir Kemanusiaan. CAIS dan Scale AI berencana untuk membuka ujian ini untuk komunitas penelitian agar para peneliti dapat mengeksplorasi lebih dalam variasi yang ada dan mengevaluasi model-model AI baru.

(Sumber)

Pertanyaan Terkait

Apa itu Center for AI Safety?

Center for AI Safety adalah organisasi nirlaba yang fokus pada keselamatan dan etika dalam pengembangan kecerdasan buatan.

Apa tujuan dari Humanity’s Last Exam?

Tujuan dari Humanity’s Last Exam adalah untuk menguji kemampuan sistem AI dengan ribuan pertanyaan yang bersumber dari kerumunan.

Siapa yang berkolaborasi dalam pengembangan Humanity’s Last Exam?

Center for AI Safety dan Scale AI berkolaborasi dalam pengembangan Humanity’s Last Exam.

Mengapa pertanyaan dalam Humanity’s Last Exam dianggap menantang?

Pertanyaan dalam Humanity’s Last Exam dianggap menantang karena mencakup berbagai format, termasuk diagram dan gambar.

Apa hasil awal dari evaluasi sistem AI terhadap Humanity’s Last Exam?

Hasil awal menunjukkan bahwa tidak ada sistem AI flagship yang tersedia secara publik yang berhasil mencetak lebih dari 10% pada Humanity’s Last Exam.