
Courtesy of NatureMagazine
AI DeepSeekMath-V2 Kalahkan Manusia dalam Kompetisi Matematika Bergengsi
Memperkenalkan model AI yang mampu melakukan penalaran matematis dengan kemampuan self-verification, sehingga dapat mengidentifikasi dan memperbaiki kesalahannya sendiri dalam pemecahan soal matematika tingkat tinggi. Ini relevan untuk kemajuan AI yang dapat menandingi dan melampaui kemampuan mahasiswa serta olimpiade matematika terkemuka.
04 Des 2025, 07.00 WIB
272 dibaca
Share
Ikhtisar 15 Detik
- DeepSeekMath-V2 menunjukkan kemajuan signifikan dalam kecerdasan buatan di bidang matematika.
- Model ini memperkenalkan konsep verifikasi diri yang meningkatkan keandalan dalam penalaran matematis.
- Persaingan antara berbagai model AI seperti DeepSeek dan Gemini menunjukkan potensi besar AI dalam menyelesaikan masalah kompleks.
London, Inggris; Sydney, Australia - Sebuah perusahaan kecerdasan buatan asal Tiongkok, DeepSeek, telah mengembangkan model matematika bernama DeepSeekMath-V2 yang mampu mengidentifikasi dan memperbaiki kesalahan sendiri dalam proses penalaran matematis. Kehebatan model ini ditunjukkan saat mereka berhasil mengalahkan skor manusia terbaik dalam kompetisi matematika mahasiswa paling bergengsi di dunia, yaitu William Lowell Putnam Competition 2024.
Model DeepSeekMath-V2 mencatat skor luar biasa yaitu 118 poin dari maksimal 120, mengungguli skor manusia terbaik yang hanya mencapai 90 poin. Model ini juga menunjukkan kemampuan setara pemenang medali emas di Olimpiade Matematika Internasional 2025 dan Olimpiade Matematika China 2024, membuktikan kecanggihan AI dalam bidang matematika tingkat tinggi.
Keunggulan model ini terletak pada mekanismenya yang tidak hanya mengevaluasi benar atau salahnya jawaban, tetapi juga kemampuan untuk memeriksa dan memperbaiki setiap langkah argumentasi matematis secara mandiri menggunakan sistem self-verification. Hal ini memungkinkan AI untuk membangun bukti matematis yang lebih terpercaya dan tidak rawan kesalahan.
Sistem ini melibatkan tiga komponen utama, yaitu generator bukti yang menyusun solusi, verifier yang menilai kualitas bukti, dan meta-verifier yang meninjau ulang kritik dari verifier guna menghindari kesalahan. Ketiga bagian ini bekerja secara siklis membentuk umpan balik yang meningkatkan kemampuan AI dalam memecahkan masalah matematika.
Meskipun demikian, model ini belum berhasil memecahkan soal matematika paling sulit di kompetisi Olimpiade Matematika Internasional, sehingga riset ke depan masih dibutuhkan. Metode ini berbeda dengan pendekatan lain seperti Gemini’s Deep Think yang memakai bahasa simbolik Lean, yang lebih tepat dan minim kesalahan tapi memerlukan sumber daya besar dan bantuan ahli.
Referensi:
[1] https://nature.com/articles/d41586-025-03959-9
[1] https://nature.com/articles/d41586-025-03959-9
Analisis Ahli
Kevin Buzzard
"AI sudah mencapai level mahasiswa pintar dan kemajuan ini sangat menggembirakan bagi bidang matematika dan komputasi."
Analisis Kami
"Inovasi self-verifiable reasoning pada DeepSeekMath-V2 adalah terobosan penting yang memperbaiki keterbatasan model AI sebelumnya yang hanya fokus pada jawaban akhir. Namun, masih ada tantangan dalam menangani masalah matematika paling sulit, yang menandakan kebutuhan riset lanjutan agar AI dapat benar-benar memahami dan menerapkan logika matematis tingkat tinggi."
Prediksi Kami
Ke depan, AI dengan kemampuan self-verification seperti DeepSeekMath-V2 akan semakin mendominasi penyelesaian masalah matematika kompleks dan berpotensi membantu penelitian ilmiah dengan mengotomatiskan pembuktian dan penemuan matematika baru.
Pertanyaan Terkait
Q
Apa yang dicapai oleh model DeepSeekMath-V2?A
Model DeepSeekMath-V2 berhasil mengalahkan skor manusia terbaik dalam kompetisi matematika, mencetak 118 dari 120 poin.Q
Bagaimana DeepSeekMath-V2 dapat memperbaiki kesalahan sendiri?A
DeepSeekMath-V2 menggunakan sistem verifikasi untuk mengevaluasi bukti matematis dan mengidentifikasi kesalahan logis.Q
Apa perbedaan antara DeepSeekMath-V2 dan Gemini's Deep Think?A
DeepSeekMath-V2 mengandalkan verifikasi internal, sedangkan Gemini's Deep Think menggunakan bahasa simbolik eksternal untuk verifikasi.Q
Apa tujuan dari verifikasi diri dalam penalaran matematis?A
Verifikasi diri bertujuan untuk meningkatkan keandalan dan keakuratan proses penalaran matematis.Q
Siapa yang mengembangkan AlphaGeometry 2?A
AlphaGeometry 2 dikembangkan oleh Google DeepMind.




