Harvard Mengeluarkan Dataset Pelatihan AI Gratis yang Besar Didanai oleh OpenAI dan Microsoft
Courtesy of Wired

Rangkuman Berita: Harvard Mengeluarkan Dataset Pelatihan AI Gratis yang Besar Didanai oleh OpenAI dan Microsoft

Wired
DariĀ Wired
12 Desember 2024 pukul 21.06 WIB
121 dibaca
Share
Universitas Harvard baru saja mengumumkan bahwa mereka akan merilis dataset berkualitas tinggi yang berisi hampir 1 juta buku domain publik. Dataset ini dibuat oleh Inisiatif Data Institusional Harvard dengan dukungan dari Microsoft dan OpenAI. Buku-buku ini merupakan hasil pemindaian dari proyek Google Books yang sudah tidak dilindungi hak cipta. Dataset ini mencakup berbagai genre dan bahasa, termasuk karya klasik dari penulis terkenal seperti Shakespeare dan Charles Dickens, serta buku-buku yang lebih jarang dikenal. Tujuan dari proyek ini adalah untuk memberikan akses kepada publik dan peneliti kecil untuk menggunakan konten berkualitas tinggi yang biasanya hanya dimiliki oleh perusahaan teknologi besar.
Selain buku, Inisiatif Data Institusional juga bekerja sama dengan Perpustakaan Umum Boston untuk memindai artikel-artikel dari berbagai surat kabar yang kini juga berada di domain publik. Meskipun ada banyak gugatan hukum terkait penggunaan data berhak cipta untuk melatih AI, proyek seperti ini menunjukkan bahwa ada kebutuhan untuk dataset publik yang dapat digunakan tanpa masalah hak cipta. Beberapa perusahaan dan inisiatif lain juga sedang mengembangkan dataset publik serupa, yang menunjukkan bahwa tidak perlu mencuri materi berhak cipta untuk membangun model AI yang berkualitas.

Pertanyaan Terkait

Q
Apa tujuan dari dataset yang dirilis oleh Harvard University?
A
Tujuan dari dataset yang dirilis oleh Harvard University adalah untuk memberikan akses kepada publik dan peneliti untuk melatih model kecerdasan buatan dengan konten berkualitas tinggi.
Q
Siapa yang mendanai Inisiatif Data Institusional?
A
Inisiatif Data Institusional didanai oleh Microsoft dan OpenAI.
Q
Apa yang dimaksud dengan data publik dalam konteks artikel ini?
A
Data publik dalam konteks artikel ini merujuk pada dataset buku yang tidak lagi dilindungi oleh hak cipta dan dapat diakses oleh siapa saja.
Q
Mengapa Microsoft dan OpenAI terlibat dalam proyek ini?
A
Microsoft dan OpenAI terlibat dalam proyek ini untuk mendukung pengembangan akses data yang dikelola demi kepentingan publik dan untuk membantu industri AI yang lebih kecil.
Q
Apa dampak dari dataset publik terhadap industri kecerdasan buatan?
A
Dataset publik dapat mengurangi ketergantungan pada materi berhak cipta dan memberikan alternatif yang sah untuk melatih model kecerdasan buatan.

Rangkuman Berita Serupa

Perusahaan AI mendorong untuk menggunakan konten yang dilindungi hak cipta secara bebas.Axios
Teknologi
1 bulan lalu
115 dibaca
Perusahaan AI mendorong untuk menggunakan konten yang dilindungi hak cipta secara bebas.
OpenAI dan Google meminta pemerintah untuk membiarkan mereka melatih AI pada konten yang tidak mereka miliki.TheVerge
Teknologi
1 bulan lalu
41 dibaca
OpenAI dan Google meminta pemerintah untuk membiarkan mereka melatih AI pada konten yang tidak mereka miliki.
Google menyerukan pelonggaran hak cipta dan aturan ekspor dalam proposal kebijakan AITechCrunch
Teknologi
1 bulan lalu
68 dibaca
Google menyerukan pelonggaran hak cipta dan aturan ekspor dalam proposal kebijakan AI
Tidak, DeepSeek Bukanlah 'Momen Sputnik'Forbes
Teknologi
2 bulan lalu
116 dibaca
Tidak, DeepSeek Bukanlah 'Momen Sputnik'
OpenAI gagal menyediakan alat opt-out yang dijanjikannya pada tahun 2025.TechCrunch
Teknologi
3 bulan lalu
102 dibaca
OpenAI gagal menyediakan alat opt-out yang dijanjikannya pada tahun 2025.
Harvard dan Google akan merilis 1 juta buku domain publik sebagai dataset pelatihan AI.TechCrunch
Teknologi
4 bulan lalu
55 dibaca
Harvard dan Google akan merilis 1 juta buku domain publik sebagai dataset pelatihan AI.