Courtesy of TechCrunch
Ikhtisar 15 Detik
- OpenAI telah menerapkan sistem monitoring untuk mencegah penyalahgunaan model AI terkait ancaman biologis.
- Model o3 dan o4-mini menunjukkan peningkatan kemampuan yang signifikan dibandingkan model sebelumnya.
- Meskipun ada upaya untuk meningkatkan keselamatan, beberapa peneliti merasa OpenAI perlu lebih memprioritaskan aspek keselamatan.
Amerika Serikat - OpenAI telah mengembangkan sistem baru untuk memantau model AI terbaru mereka, o3 dan o4-mini, terkait ancaman biologis dan kimia. Sistem ini bertujuan untuk mencegah model memberikan saran yang dapat digunakan untuk melakukan serangan berbahaya. O3 dan o4-mini memiliki peningkatan kemampuan yang signifikan dibandingkan model sebelumnya, sehingga menimbulkan risiko baru di tangan aktor jahat.
Sistem pemantauan baru, yang disebut sebagai 'monitor penalaran berfokus pada keselamatan,' dirancang untuk mengidentifikasi prompt terkait risiko biologis dan kimia dan menginstruksikan model untuk menolak memberikan saran tentang topik tersebut. Selama pengujian, model menolak untuk merespons prompt berisiko 98,7% dari waktu. OpenAI menghabiskan sekitar 1.000 jam untuk menandai percakapan terkait risiko biologis yang tidak aman dari o3 dan o4-mini.
Meskipun demikian, beberapa peneliti mengkhawatirkan bahwa OpenAI tidak memprioritaskan keselamatan sebagaimana mestinya. Salah satu mitra red-teaming OpenAI, Metr, menyatakan bahwa mereka memiliki waktu yang relatif sedikit untuk menguji o3 pada tolok ukur perilaku menipu. OpenAI juga memutuskan untuk tidak merilis laporan keselamatan untuk model GPT-4.1 yang diluncurkan baru-baru ini.
Pertanyaan Terkait
Q
Apa tujuan dari sistem monitoring yang diterapkan oleh OpenAI?A
Tujuan dari sistem monitoring adalah untuk mencegah model memberikan saran terkait ancaman biologis dan kimia.Q
Model apa yang menjadi fokus dalam laporan ini?A
Model yang menjadi fokus dalam laporan ini adalah o3 dan o4-mini.Q
Bagaimana OpenAI menguji efektivitas sistem monitoringnya?A
OpenAI menguji efektivitas sistem monitoring dengan mensimulasikan logika pemblokiran dan melibatkan red teamers untuk mengidentifikasi percakapan berisiko.Q
Apa yang dikhawatirkan oleh OpenAI terkait model o3 dan o4-mini?A
OpenAI khawatir bahwa model o3 dan o4-mini dapat digunakan oleh pengguna jahat untuk mengembangkan ancaman biologis dan kimia.Q
Siapa mitra red teaming yang disebutkan dalam artikel ini?A
Mitra red teaming yang disebutkan dalam artikel ini adalah Metr.