DeepSeek, sebuah perusahaan AI dari China, dituduh mencuri data dengan menggunakan teknik yang disebut "distillation" untuk melatih model-modelnya yang lebih murah. OpenAI, perusahaan yang mengembangkan ChatGPT, mengklaim memiliki bukti bahwa DeepSeek menggunakan model GPT mereka secara tidak sah untuk membuat model V3 dan R1. Mereka juga sedang menyelidiki apakah DeepSeek mendapatkan data dengan cara yang tidak benar melalui API. Distillation adalah cara untuk melatih model yang lebih kecil agar dapat meniru model yang lebih besar dan canggih.Meskipun banyak perusahaan teknologi besar menggunakan teknik ini, beberapa ahli mempertanyakan kejujuran OpenAI dalam tuduhan mereka, karena mereka sendiri juga mungkin melanggar ketentuan layanan saat melatih model mereka. DeepSeek mengklaim menggunakan model open-source lain, tetapi OpenAI menuduh mereka menggunakan akses API untuk model GPT yang tertutup secara tidak sah. Hingga saat ini, DeepSeek belum mengakui penggunaan distillation dalam pelatihan model utamanya.
Isu distilasi model ini mencerminkan ketegangan antara inovasi terbuka dan perlindungan kekayaan intelektual dalam AI. Sementara praktik distilasi efektif secara teknis dan ekonomi, perusahaan besar harus mencari cara lebih adil dan transparan untuk mengelola data dan kerjasama antar pemilik teknologi agar tidak menciptakan perpecahan industri.