
Courtesy of QuantaMagazine
Mengungkap Kelemahan Filter AI: Kriptografi dan Jalan Kembali ke Keamanan
Artikel ini bertujuan menjelaskan bagaimana pendekatan kriptografi digunakan untuk mengungkap dan menjelaskan kelemahan sistem penyaringan pada model bahasa besar, serta mengapa risiko kebocoran konten berbahaya pada LLM kemungkinan besar tidak akan pernah sepenuhnya hilang.
10 Des 2025, 07.00 WIB
257 dibaca
Share
Ikhtisar 15 Detik
- Model bahasa memiliki celah keamanan yang dapat dieksploitasi dengan teknik kriptografi.
- Penggunaan filter untuk menyaring prompt berbahaya memiliki batasan dan dapat disusupi.
- Penyelarasan model bahasa dengan nilai manusia adalah tantangan yang kompleks dan tidak ada solusi sederhana.
Berkeley, Amerika Serikat - Model bahasa besar seperti ChatGPT dirancang untuk mencegah pengguna mendapat informasi berbahaya dengan menggunakan filter eksternal yang mencegah prompt tertentu mencapai model. Namun, filter ini sering kali lebih kecil dan kurang kuat dibandingkan model utama sehingga rentan terhadap eksploitasi.
Para peneliti mengadaptasi teknik kriptografi sederhana seperti substitution cipher untuk menyembunyikan pesan berbahaya dalam bentuk teka-teki yang bisa dipecahkan oleh model bahasa, namun tidak dikenali oleh filter. Ini membuka celah keamanan yang mereka sebut controlled-release prompting.
Selain substitution cipher, mereka juga menguji konsep time-lock puzzle yang menggunakan operasi matematika berat untuk membuat pesan berbahaya tersembunyi dalam bentuk angka acak. Dengan memasukkan angka ini sebagai seed acak, prompt berbahaya bisa disamarkan di balik permintaan prompt yang netral seperti membuat puisi.
Riset ini menunjukkan bahwa selama filter memiliki sumber daya komputasi lebih kecil dibanding model yang dilindunginya, celah keamanan seperti jailbreak akan selalu ada. Hal ini menjadi bukti bahwa filter eksternal tidak cukup untuk menyelaraskan model besar secara sempurna.
Kesimpulannya, tantangan ke depan adalah mengembangkan teknik penyelarasan AI yang lebih mendalam dan mengerti cara kerja internal model, bukan hanya menyandarkan pada filter eksternal. Ini penting agar teknologi AI dapat dipercaya dan aman tanpa risiko bocor informasi berbahaya.
Referensi:
[1] https://www.quantamagazine.org/cryptographers-show-that-ai-protections-will-always-have-holes-20251210/
[1] https://www.quantamagazine.org/cryptographers-show-that-ai-protections-will-always-have-holes-20251210/
Analisis Ahli
Shafi Goldwasser
"Kriptografi berperan penting dalam membangun kepercayaan terhadap teknologi canggih seperti AI dan memberikan jaminan keamanan yang dapat dipercaya."
Jaiden Fairoze
"Penggunaan konsep kriptografi sederhana seperti substitution cipher menginspirasi pendekatan baru untuk mengeksploitasi dan memahami kelemahan filter AI."
Greg Gluch
"Filter eksternal tidak cukup untuk menyelaraskan model AI tanpa pemahaman mendalam mengenai proses internal model tersebut; pertanyaan ini dijawab dengan tegas dalam riset kami."
Analisis Kami
"Dari sudut pandang keamanan siber, mengandalkan filter eksternal yang lebih lemah untuk melindungi sistem yang kuat adalah strategi yang sangat riskan dan rentan terhadap eksploitasi. Pengembangan metode pengamanan internal yang menyeluruh dan pemahaman mendalam tentang pemrosesan internal model harus menjadi fokus utama untuk memastikan keamanan yang nyata."
Prediksi Kami
Ke depan, teknis jailbreak dan eksploitasi filter kemungkinan akan semakin canggih, sehingga pendekatan baru yang lebih mendalam dan menyeluruh dalam mengamankan dan mengendalikan model LLM diperlukan.
Pertanyaan Terkait
Q
Apa yang dimaksud dengan 'jailbreak' dalam konteks model bahasa?A
Jailbreak dalam konteks model bahasa merujuk pada metode untuk mengakali sistem keamanan AI agar dapat memberikan informasi terlarang.Q
Mengapa filter digunakan dalam model AI?A
Filter digunakan dalam model AI untuk memblokir prompt berbahaya agar tidak mencapai model utama, sehingga menjaga keamanan dan integritas model.Q
Apa peran kriptografi dalam penelitian ini?A
Kriptografi digunakan untuk memahami dan mengatasi masalah penyelarasan (alignment) dalam model AI serta untuk mengidentifikasi celah dalam sistem keamanan yang ada.Q
Bagaimana cara peneliti menggunakan cipher substitusi untuk menyusup ke filter?A
Peneliti menggunakan cipher substitusi untuk menyembunyikan prompt berbahaya dalam bentuk puzzle yang dapat didekode oleh model tetapi tidak oleh filter.Q
Apa kesimpulan yang dapat diambil tentang keamanan model bahasa dari penelitian ini?A
Penelitian ini menunjukkan bahwa selalu ada celah dalam sistem penyaringan yang dapat dieksploitasi, menegaskan bahwa keamanan model bahasa tidak dapat sepenuhnya dijamin tanpa pemahaman mendalam tentang cara kerjanya.




