Courtesy of Axios
Perusahaan AI besar seperti OpenAI, Google, dan Meta ternyata lebih bergantung pada konten dari penerbit premium untuk melatih model bahasa besar (LLMs) mereka daripada yang mereka akui secara publik. Penelitian dari Ziff Davis menunjukkan bahwa konten dari 15 penerbit premium menyumbang sebagian besar data yang digunakan untuk melatih beberapa model bahasa besar. Misalnya, dalam analisis dataset OpenWebText yang digunakan untuk melatih ChatGPT-2, hampir 10% URL berasal dari penerbit premium tersebut. Hal ini penting bagi penerbit karena mereka berharap dapat melindungi hak cipta dan mendapatkan kompensasi atas materi mereka di era AI.
Ziff Davis, yang merupakan anggota News/Media Alliance, melakukan studi ini untuk meningkatkan kesadaran industri tentang masalah ini dan untuk mempersiapkan diskusi mereka dengan perusahaan AI. Mereka menyadari bahwa konten yang mereka terbitkan berperan penting dalam membentuk pemahaman AI tentang dunia. Selain itu, banyak perusahaan berita kini lebih fokus pada kesepakatan jangka panjang untuk menyediakan konten berita bagi chatbot AI, daripada hanya kesepakatan pelatihan data yang bersifat sekali saja. Kasus hukum yang diajukan oleh New York Times terhadap OpenAI dan Microsoft juga dapat membantu menentukan apakah penggunaan konten penerbit tanpa izin untuk melatih model AI melanggar hak cipta.