Rangkuman Berita - Eksklusif: Studi Ziff Davis menyatakan bahwa perusahaan AI mengandalkan data penerbit untuk melatih model.

Perusahaan AI besar seperti OpenAI, Google, dan Meta ternyata lebih bergantung pada konten dari penerbit premium untuk melatih model bahasa besar (LLMs) mereka daripada yang mereka akui secara publik. Penelitian dari Ziff Davis menunjukkan bahwa konten dari 15 penerbit premium menyumbang sebagian besar data yang digunakan untuk melatih beberapa model bahasa besar. Misalnya, dalam analisis dataset OpenWebText yang digunakan untuk melatih ChatGPT-2, hampir 10% URL berasal dari penerbit premium tersebut. Hal ini penting bagi penerbit karena mereka berharap dapat melindungi hak cipta dan mendapatkan kompensasi atas materi mereka di era AI.

Ziff Davis, yang merupakan anggota News/Media Alliance, melakukan studi ini untuk meningkatkan kesadaran industri tentang masalah ini dan untuk mempersiapkan diskusi mereka dengan perusahaan AI. Mereka menyadari bahwa konten yang mereka terbitkan berperan penting dalam membentuk pemahaman AI tentang dunia. Selain itu, banyak perusahaan berita kini lebih fokus pada kesepakatan jangka panjang untuk menyediakan konten berita bagi chatbot AI, daripada hanya kesepakatan pelatihan data yang bersifat sekali saja. Kasus hukum yang diajukan oleh New York Times terhadap OpenAI dan Microsoft juga dapat membantu menentukan apakah penggunaan konten penerbit tanpa izin untuk melatih model AI melanggar hak cipta.

Rangkuman Berita: Eksklusif: Studi Ziff Davis menyatakan bahwa perusahaan AI mengandalkan data penerbit untuk melatih model.

Rangkuman Berita Serupa

Microsoft sedang menjajaki cara untuk memberi kredit kepada kontributor data pelatihan AI.

Koran Alden mengecam proposal AI OpenAI dan Google.

Koran Alden mengkritik proposal AI dari OpenAI dan Google.

Penerbit berita menggugat Cohere atas pelanggaran hak cipta dan merek dagang.

OpenAI gagal menyediakan alat opt-out yang dijanjikannya pada tahun 2025.

Harvard Mengeluarkan Dataset Pelatihan AI Gratis yang Besar Didanai oleh OpenAI dan Microsoft

Bagaimana penerbit menghasilkan kesepakatan bernilai jutaan dolar saat AI menghadapi kekurangan data.