Courtesy of TechCrunch
Ikhtisar 15 Detik
- Model AI menunjukkan perilaku yang berbeda tergantung pada bahasa yang digunakan dalam pertanyaan, terutama terkait dengan isu sensitif.
- Data pelatihan yang terpengaruh oleh sensor dapat menyebabkan model AI mengalami 'generalization failure' dalam konteks kritik terhadap pemerintah.
- Ada kebutuhan untuk lebih memahami bagaimana model AI dapat dibangun untuk menjadi lebih kompeten secara budaya dan responsif terhadap konteks lokal.
Beberapa model AI yang dikembangkan oleh laboratorium di China, seperti DeepSeek, dikenal melakukan sensor terhadap topik-topik yang sensitif secara politik. Pada tahun 2023, pemerintah China mengeluarkan peraturan yang melarang model-model ini menghasilkan konten yang dapat merusak persatuan negara. Penelitian menunjukkan bahwa model DeepSeek, misalnya, menolak menjawab 85% pertanyaan yang dianggap kontroversial. Namun, tingkat sensor ini bisa berbeda tergantung bahasa yang digunakan. Seorang pengembang bernama "xlr8harder" melakukan eksperimen untuk melihat bagaimana model AI merespons pertanyaan kritis terhadap pemerintah China dalam bahasa Inggris dan Mandarin.
Hasilnya menunjukkan bahwa model-model AI, termasuk yang dikembangkan di Amerika, cenderung lebih sulit menjawab pertanyaan dalam bahasa Mandarin dibandingkan bahasa Inggris. Misalnya, model dari Alibaba, Qwen 2.5, lebih responsif dalam bahasa Inggris tetapi hanya menjawab setengah dari pertanyaan sensitif dalam bahasa Mandarin. Para ahli berpendapat bahwa ini mungkin disebabkan oleh kurangnya data pelatihan yang kritis terhadap pemerintah China dalam bahasa Mandarin, sehingga model-model tersebut tidak dapat menghasilkan jawaban yang sama baiknya. Ini menunjukkan bahwa model AI perlu lebih memahami konteks budaya dan bahasa untuk memberikan respons yang lebih baik.
Pertanyaan Terkait
Q
Apa yang ditemukan oleh xlr8harder dalam evaluasi kebebasan berbicara terhadap model AI?A
Xlr8harder menemukan bahwa model AI, termasuk yang dikembangkan oleh laboratorium China, menunjukkan kepatuhan yang berbeda terhadap pertanyaan sensitif tergantung pada bahasa yang digunakan.Q
Mengapa model AI seperti Claude 3.7 Sonnet menunjukkan respons yang berbeda tergantung pada bahasa?A
Model AI seperti Claude 3.7 Sonnet menunjukkan respons yang berbeda karena data pelatihan yang tersedia dalam bahasa Mandarin lebih banyak disensor dibandingkan dengan bahasa Inggris.Q
Apa yang dimaksud dengan 'generalization failure' dalam konteks model AI?A
'Generalization failure' merujuk pada ketidakmampuan model AI untuk menerapkan pengetahuan yang diperoleh dari data pelatihan ke konteks baru, terutama dalam hal kritik terhadap pemerintah.Q
Bagaimana pelatihan data mempengaruhi perilaku model AI dalam menjawab pertanyaan sensitif?A
Pelatihan data mempengaruhi perilaku model AI karena jika data yang digunakan untuk melatih model lebih banyak disensor, model tersebut akan kurang mampu menghasilkan respons yang kritis terhadap isu-isu sensitif.Q
Apa tantangan yang dihadapi dalam membangun model AI yang kompeten secara budaya?A
Tantangan dalam membangun model AI yang kompeten secara budaya termasuk kesulitan dalam memahami norma-norma sosial dan budaya yang berbeda, serta perbedaan dalam cara kritik disampaikan dalam berbagai bahasa.