Pelatihan Ulang AI Menjaga Keamanan Meski Model Diperkecil dan Terbuka
Teknologi
Kecerdasan Buatan
07 Sep 2025
280 dibaca
2 menit

Rangkuman 15 Detik
Model AI yang diperkecil dapat mengurangi lapisan keamanan penting.
Pendekatan pelatihan ulang dapat menjaga perilaku aman meskipun model dikompresi.
Penelitian ini menunjukkan pentingnya pengembangan AI yang inovatif dan bertanggung jawab.
AI kini mulai digunakan di banyak perangkat sehari-hari seperti smartphone dan alat rumah tangga. Untuk itu, model AI harus diperkecil agar hemat energi dan mudah dijalankan. Namun, pengurangan ini sering membuat lapisan pengaman penting hilang, sehingga AI bisa memberikan jawaban tidak aman, misalnya terkait ujaran kebencian atau instruksi kriminal.
Open-source AI punya risiko lebih besar karena semua orang bisa mengunduh, memodifikasi, dan menjalankan model offline tanpa pengawasan seperti pada model komersial. Ini berarti model yang sudah diperkecil sangat rentan digunakan secara salah oleh pihak yang tidak bertanggung jawab.
Para peneliti di Universitas California, Riverside mencoba mengatasi masalah ini dengan cara yang berbeda, yakni mempelajari ulang inti model sehingga tetap bisa mengenali dan menolak perintah berbahaya walau modelnya sudah disederhanakan. Metode ini mengambil contoh pada model LLaVA 1.5 yang mampu memproses gambar dan teks.
Hasilnya, model yang sudah dilatih ulang secara internal ini mampu menolak pertanyaan berbahaya seperti membuat bom, walau ukurannya jauh lebih kecil dari versi aslinya. Pendekatan ini menghilangkan kebutuhan akan filter eksternal yang mudah dihilangkan atau di-bypass.
Para peneliti menamakan metodologi ini sebagai ‘benevolent hacking’ yang bertujuan memperkuat model AI sebelum dieksploitasi. Meskipun masih ada banyak pekerjaan yang harus dilakukan, riset ini membuka jalan untuk AI yang lebih aman, efisien, dan tetap terbuka untuk inovasi.
Analisis Ahli
Amit Roy-Chowdhury
Mendesak pentingnya membangun keamanan dalam struktur inti model untuk menghindari risiko serius yang dapat muncul dari versi model yang disederhanakan dan open-source.
