Model OpenAI 'mengingat' konten berhak cipta, saran studi baru.
Courtesy of TechCrunch

Rangkuman Berita: Model OpenAI 'mengingat' konten berhak cipta, saran studi baru.

TechCrunch
Dari TechCrunch
05 April 2025 pukul 01.42 WIB
63 dibaca
Share
Ikhtisar 15 Detik
  • Studi ini menunjukkan bahwa model AI dapat mengingat data berhak cipta, yang menimbulkan pertanyaan tentang etika penggunaannya.
  • Ada kebutuhan mendesak untuk transparansi data dalam pengembangan model AI.
  • OpenAI terus berupaya untuk memperjuangkan aturan 'fair use' dalam penggunaan data untuk pelatihan model.
Sebuah studi baru menunjukkan bahwa OpenAI mungkin telah melatih model AI-nya menggunakan konten yang dilindungi hak cipta tanpa izin. OpenAI sedang menghadapi gugatan dari penulis dan pemilik hak lainnya yang mengklaim bahwa perusahaan tersebut menggunakan karya mereka, seperti buku dan kode, untuk mengembangkan modelnya. OpenAI berpendapat bahwa penggunaan ini termasuk dalam kategori "fair use" atau penggunaan yang wajar, tetapi para penggugat berargumen bahwa tidak ada pengecualian dalam hukum hak cipta AS untuk data pelatihan.
Studi ini, yang ditulis oleh peneliti dari beberapa universitas, mengusulkan metode baru untuk mengidentifikasi data pelatihan yang "diingat" oleh model-model AI. Model AI belajar dari banyak data dan dapat menghasilkan teks atau gambar. Namun, terkadang mereka juga mengulangi bagian dari data yang mereka pelajari. Peneliti menggunakan kata-kata yang jarang muncul dalam konteks tertentu untuk menguji apakah model-model tersebut dapat menebak kata-kata yang dihilangkan dari teks. Jika model dapat menebak dengan benar, itu menunjukkan bahwa mereka mungkin telah mengingat bagian tersebut saat dilatih.
Hasil penelitian menunjukkan bahwa model GPT-4 dari OpenAI menunjukkan tanda-tanda telah mengingat bagian dari buku fiksi populer dan artikel New York Times. Peneliti menyatakan bahwa penting untuk memiliki transparansi data yang lebih besar dalam pengembangan model AI agar model tersebut dapat dipercaya. OpenAI sendiri telah mendorong agar ada aturan yang lebih longgar mengenai penggunaan data berhak cipta untuk pelatihan model AI.

Pertanyaan Terkait

Q
Apa yang diteliti dalam studi ini?
A
Studi ini meneliti apakah model AI, seperti GPT-4, mengingat data berhak cipta selama pelatihan.
Q
Siapa saja penulis studi tersebut?
A
Penulis studi ini termasuk peneliti dari University of Washington, University of Copenhagen, dan Stanford.
Q
Apa yang dimaksud dengan 'high-surprisal' dalam konteks penelitian ini?
A
'High-surprisal' merujuk pada kata-kata yang jarang muncul dalam konteks tertentu, yang digunakan untuk menguji memorisasi model.
Q
Apa hasil utama dari penelitian terkait GPT-4?
A
Hasil penelitian menunjukkan bahwa GPT-4 menunjukkan tanda-tanda mengingat bagian dari buku fiksi dan artikel New York Times.
Q
Mengapa OpenAI berpendapat bahwa mereka dapat menggunakan data berhak cipta?
A
OpenAI berpendapat bahwa mereka dapat menggunakan data berhak cipta berdasarkan prinsip 'fair use' dalam hukum AS.

Rangkuman Berita Serupa

OpenAI menyerukan pemerintah AS untuk mengkodifikasi 'penggunaan wajar' untuk pelatihan AI.TechCrunch
Teknologi
1 bulan lalu
133 dibaca
OpenAI menyerukan pemerintah AS untuk mengkodifikasi 'penggunaan wajar' untuk pelatihan AI.
Dokumen pengadilan menunjukkan bahwa staf Meta membahas penggunaan konten yang dilindungi hak cipta untuk pelatihan AI.TechCrunch
Teknologi
2 bulan lalu
70 dibaca
Dokumen pengadilan menunjukkan bahwa staf Meta membahas penggunaan konten yang dilindungi hak cipta untuk pelatihan AI.
Pencurian data DeepSeek: OpenAI mengeluh sementara para kritikus mempertanyakan etika mereka sendiri.InterestingEngineering
Teknologi
2 bulan lalu
137 dibaca
Pencurian data DeepSeek: OpenAI mengeluh sementara para kritikus mempertanyakan etika mereka sendiri.
OpenAI gagal menyediakan alat opt-out yang dijanjikannya pada tahun 2025.TechCrunch
Teknologi
3 bulan lalu
101 dibaca
OpenAI gagal menyediakan alat opt-out yang dijanjikannya pada tahun 2025.
Harvard Mengeluarkan Dataset Pelatihan AI Gratis yang Besar Didanai oleh OpenAI dan MicrosoftWired
Teknologi
4 bulan lalu
121 dibaca
Harvard Mengeluarkan Dataset Pelatihan AI Gratis yang Besar Didanai oleh OpenAI dan Microsoft
Tampaknya OpenAI melatih Sora dengan konten permainan — dan para ahli hukum mengatakan bahwa itu bisa menjadi masalah.TechCrunch
Teknologi
4 bulan lalu
104 dibaca
Tampaknya OpenAI melatih Sora dengan konten permainan — dan para ahli hukum mengatakan bahwa itu bisa menjadi masalah.