Courtesy of SCMP
Teknik Baru Tencent Membuat Model Bahasa Bisa Belajar Tanpa Pelatihan Ulang
Mengembangkan teknik baru yang memungkinkan model bahasa besar untuk terus belajar dan meningkatkan kemampuannya melalui pengalaman langsung tanpa perlu memperbarui parameter atau pelatihan ulang yang memakan sumber daya besar.
17 Okt 2025, 06.00 WIB
154 dibaca
Share
Ikhtisar 15 Detik
- Model bahasa besar dapat belajar dari pengalaman tanpa perlu pelatihan ulang.
- Penggunaan perpustakaan pengalaman dapat mengurangi biaya dan waktu pelatihan.
- Teknik baru mengusulkan cara yang lebih efisien untuk meningkatkan kemampuan model AI.
Shenzhen, China - Peneliti dari Tencent Holdings mengembangkan metode baru yang memungkinkan model bahasa besar (LLM) belajar dan meningkatkan performa melalui pengalaman langsung saat bekerja, tanpa harus melakukan pelatihan ulang. Hal ini penting karena pelatihan ulang biasanya membutuhkan banyak waktu dan biaya.
Metode yang dinamakan Training-Free Group Relative Policy Optimisation (GRPO) ini membuat model menyimpan aturan dan strategi yang ditemukan selama mengerjakan tugas dalam sebuah perpustakaan pengalaman yang dapat digunakan kembali ketika menghadapi tugas baru.
Dengan tidak perlu mengubah parameter model, proses pembelajaran menjadi lebih ringan dan cepat dibandingkan dengan metode lama yang mengandalkan reinforcement learning, di mana model harus terus disesuaikan parameternya.
Contoh aturan yang dihasilkan model termasuk validasi bahwa solusi soal geometri harus berada dalam batas yang ditentukan agar jawaban yang keluar tidak salah atau tidak relevan. Ini menunjukkan model bisa mengembangkan solusi cerdas sendiri.
Pendekatan ini membuka peluang bagi pengembangan AI yang lebih hemat biaya dan bisa beradaptasi dengan cepat terhadap situasi baru dalam berbagai aplikasi di dunia nyata, tanpa harus melakukan pelatihan ulang yang mahal.
Referensi: 
[1] https://www.scmp.com/tech/big-tech/article/3329255/tencents-training-free-ai-model-improvement-technique-sparks-debate?module=top_story&pgtype=section
[1] https://www.scmp.com/tech/big-tech/article/3329255/tencents-training-free-ai-model-improvement-technique-sparks-debate?module=top_story&pgtype=section
Analisis Ahli
Yann LeCun
"Ini adalah langkah menarik menuju AI yang benar-benar terus belajar tanpa perlu pelatihan ulang konvensional, mencerminkan arah riset yang lebih adaptif dan efisien."
Fei-Fei Li
"Menyimpan pengalaman dalam bentuk heuristik bisa mempercepat penerapan AI di dunia nyata, tapi harus diimbangi dengan kontrol ketat agar model tidak mengadopsi bias dari pengalaman sebelumnya."
Analisis Kami
"Metode ini merupakan inovasi penting yang berpotensi mengurangi beban komputasi dan biaya dalam pengembangan AI, namun efektivitas jangka panjangnya masih perlu diuji dalam berbagai skenario nyata. Meskipun menjanjikan, tetap diperlukan mekanisme pengawasan agar heuristik yang disimpan tetap relevan dan tidak menurunkan kualitas hasil model."
Prediksi Kami
Pendekatan pembelajaran tanpa pelatihan ulang ini akan menjadi tren baru dalam pengembangan kecerdasan buatan yang lebih hemat biaya, memungkinkan model bahasa terus mengalami peningkatan performa secara dinamis dalam aplikasi sehari-hari.
Pertanyaan Terkait
Q
Apa teknik baru yang diusulkan oleh peneliti dari Tencent Holdings?A
Peneliti dari Tencent Holdings mengusulkan teknik 'Training-Free Group Relative Policy Optimisation'.Q
Bagaimana model bahasa besar dapat meningkatkan kemampuannya tanpa perubahan parameter?A
Model bahasa besar dapat meningkatkan kemampuannya dengan mencatat aturan dan heuristik dari proses GRPO dalam 'perpustakaan pengalaman'.Q
Apa itu optimasi kebijakan relatif grup (GRPO)?A
Optimasi kebijakan relatif grup (GRPO) adalah teknik yang digunakan untuk menyesuaikan parameter model berdasarkan skor dari beberapa percobaan tugas.Q
Apa yang dimaksud dengan 'perpustakaan pengalaman' dalam konteks artikel ini?A
'Perpustakaan pengalaman' adalah tempat di mana model mencatat heuristik yang didapatnya untuk digunakan pada tugas baru.Q
Mengapa teknik baru ini dianggap lebih efisien dibandingkan metode pelatihan tradisional?A
Teknik baru ini dianggap lebih efisien karena mengurangi biaya komputasi dan waktu yang diperlukan untuk pelatihan kembali.



