Courtesy of Forbes
Di sebuah kelas, siswa-siswa sedang mempersiapkan ujian matematika dengan serius. Mereka berpikir keras untuk menyelesaikan soal-soal yang diberikan. Namun, bayangkan jika semua siswa tersebut adalah model AI yang disebut LLM (Large Language Models). Meskipun tidak memiliki perilaku manusia, LLM ini dapat menyelesaikan soal-soal matematika yang sama dan dievaluasi oleh guru untuk melihat siapa yang lebih baik dalam menyelesaikan masalah tersebut. OpenAI telah membuat kumpulan data bernama MATH yang berisi 12.500 soal dari kurikulum sekolah menengah, mencakup berbagai bidang matematika seperti aljabar, geometri, dan kalkulus.
Tujuan dari penelitian ini adalah untuk meningkatkan kemampuan berpikir matematis LLM, yang penting untuk kecerdasan umum. Dengan menggunakan kumpulan data MATH, para ilmuwan dapat mengevaluasi seberapa baik LLM dalam menyelesaikan masalah logis dan berpikir kritis. Beberapa model AI, seperti Qwen dari Alibaba, telah menunjukkan hasil yang sangat baik, dengan akurasi mencapai 83,6%. Selain itu, LLM juga dapat digunakan untuk membantu siswa belajar melalui bimbingan belajar berbasis AI, yang dapat memberikan akses lebih luas kepada siswa untuk mengembangkan keterampilan kognitif mereka. Penelitian ini menunjukkan bagaimana AI dan pendidikan dapat saling berinteraksi di masa depan.
Pertanyaan Terkait
Q
Apa itu dataset MATH dan siapa yang mengembangkannya?A
Dataset MATH adalah kumpulan 12.500 masalah dari kurikulum sekolah menengah yang dikembangkan oleh OpenAI.Q
Bagaimana model LLM dievaluasi menggunakan dataset MATH?A
Model LLM dievaluasi menggunakan dataset MATH untuk menilai kemampuan pemecahan masalah matematika mereka.Q
Apa tujuan dari penelitian ini terkait dengan LLM dan pendidikan?A
Tujuan penelitian ini adalah untuk meningkatkan kemampuan pemecahan masalah matematika LLM dan mengeksplorasi interaksi antara AI dan pendidikan.Q
Sebutkan beberapa model AI yang disebutkan dalam artikel dan akurasi mereka.A
Beberapa model AI yang disebutkan adalah Minerva (50%), Llama 2 7B (72%), Skywork Math 7B (51,2%), dan Qwen Alibaba (83,6%).Q
Bagaimana LLM dapat berinteraksi dengan siswa manusia dalam konteks pendidikan?A
LLM dapat berinteraksi dengan siswa manusia melalui tutoring berbasis AI dan penilaian pekerjaan siswa.