Studi Baru Ungkap GPT-4 Menghafal Konten Berhak Cipta, Perdebatan Hak Cipta Meningkat

Teknologi

Kecerdasan Buatan

05 Apr 2025

237 dibaca

2 menit

Studi Baru Ungkap GPT-4 Menghafal Konten Berhak Cipta, Perdebatan Hak Cipta Meningkat

AI summary

Studi ini menunjukkan bahwa model AI dapat mengingat data berhak cipta, yang menimbulkan pertanyaan tentang etika penggunaannya.

Ada kebutuhan mendesak untuk transparansi data dalam pengembangan model AI.

OpenAI terus berupaya untuk memperjuangkan aturan 'fair use' dalam penggunaan data untuk pelatihan model.

Sebuah studi baru menunjukkan bahwa OpenAI mungkin telah melatih model AI-nya menggunakan konten yang dilindungi hak cipta tanpa izin. OpenAI sedang menghadapi gugatan dari penulis dan pemilik hak lainnya yang mengklaim bahwa perusahaan tersebut menggunakan karya mereka, seperti buku dan kode, untuk mengembangkan modelnya. OpenAI berpendapat bahwa penggunaan ini termasuk dalam kategori "fair use" atau penggunaan yang wajar, tetapi para penggugat berargumen bahwa tidak ada pengecualian dalam hukum hak cipta AS untuk data pelatihan.Studi ini, yang ditulis oleh peneliti dari beberapa universitas, mengusulkan metode baru untuk mengidentifikasi data pelatihan yang "diingat" oleh model-model AI. Model AI belajar dari banyak data dan dapat menghasilkan teks atau gambar. Namun, terkadang mereka juga mengulangi bagian dari data yang mereka pelajari. Peneliti menggunakan kata-kata yang jarang muncul dalam konteks tertentu untuk menguji apakah model-model tersebut dapat menebak kata-kata yang dihilangkan dari teks. Jika model dapat menebak dengan benar, itu menunjukkan bahwa mereka mungkin telah mengingat bagian tersebut saat dilatih.Hasil penelitian menunjukkan bahwa model GPT-4 dari OpenAI menunjukkan tanda-tanda telah mengingat bagian dari buku fiksi populer dan artikel New York Times. Peneliti menyatakan bahwa penting untuk memiliki transparansi data yang lebih besar dalam pengembangan model AI agar model tersebut dapat dipercaya. OpenAI sendiri telah mendorong agar ada aturan yang lebih longgar mengenai penggunaan data berhak cipta untuk pelatihan model AI.

Experts Analysis

Abhilasha Ravichander

Penelitian kami menyediakan alat penting untuk memeriksa model bahasa besar secara ilmiah dan menyoroti kebutuhan mendesak untuk transparansi data dalam pengembangan AI agar dapat dipercaya.

Editorial Note

Teknologi AI saat ini masih menghadapi dilema besar antara kemajuan teknologi dan penghormatan terhadap hak cipta yang sah. Studi ini menegaskan bahwa tanpa transparansi dan regulasi, risiko pelanggaran hak cipta tidak hanya nyata tetapi juga semakin sulit dihindari.

Artikel Serupa

EleutherAI Rilis Dataset Legal Terbesar untuk Latih Model AI Unggul dan Transparan

07 Jun 2025

193 dibaca

EleutherAI Rilis Dataset Legal Terbesar untuk Latih Model AI Unggul dan Transparan

Tuduhan OpenAI Gunakan Buku Berbayar Tanpa Izin untuk Latih Model AI Terbaru

02 Apr 2025

133 dibaca

Tuduhan OpenAI Gunakan Buku Berbayar Tanpa Izin untuk Latih Model AI Terbaru

Microsoft Ingin Lacak Pengaruh Data Pelatihan AI untuk Hargai Kreator

21 Mar 2025

120 dibaca

Microsoft Ingin Lacak Pengaruh Data Pelatihan AI untuk Hargai Kreator