Courtesy of Wired
Universitas Harvard baru saja mengumumkan bahwa mereka akan merilis dataset berkualitas tinggi yang berisi hampir 1 juta buku domain publik. Dataset ini dibuat oleh Inisiatif Data Institusional Harvard dengan dukungan dari Microsoft dan OpenAI. Buku-buku ini merupakan hasil pemindaian dari proyek Google Books yang sudah tidak dilindungi hak cipta. Dataset ini mencakup berbagai genre dan bahasa, termasuk karya klasik dari penulis terkenal seperti Shakespeare dan Charles Dickens, serta buku-buku yang lebih jarang dikenal. Tujuan dari proyek ini adalah untuk memberikan akses kepada publik dan peneliti kecil untuk menggunakan konten berkualitas tinggi yang biasanya hanya dimiliki oleh perusahaan teknologi besar.
Selain buku, Inisiatif Data Institusional juga bekerja sama dengan Perpustakaan Umum Boston untuk memindai artikel-artikel dari berbagai surat kabar yang kini juga berada di domain publik. Meskipun ada banyak gugatan hukum terkait penggunaan data berhak cipta untuk melatih AI, proyek seperti ini menunjukkan bahwa ada kebutuhan untuk dataset publik yang dapat digunakan tanpa masalah hak cipta. Beberapa perusahaan dan inisiatif lain juga sedang mengembangkan dataset publik serupa, yang menunjukkan bahwa tidak perlu mencuri materi berhak cipta untuk membangun model AI yang berkualitas.
Pertanyaan Terkait
Q
Apa tujuan dari dataset yang dirilis oleh Harvard University?A
Tujuan dari dataset yang dirilis oleh Harvard University adalah untuk memberikan akses kepada publik dan peneliti untuk melatih model kecerdasan buatan dengan konten berkualitas tinggi.Q
Siapa yang mendanai Inisiatif Data Institusional?A
Inisiatif Data Institusional didanai oleh Microsoft dan OpenAI.Q
Apa yang dimaksud dengan data publik dalam konteks artikel ini?A
Data publik dalam konteks artikel ini merujuk pada dataset buku yang tidak lagi dilindungi oleh hak cipta dan dapat diakses oleh siapa saja.Q
Mengapa Microsoft dan OpenAI terlibat dalam proyek ini?A
Microsoft dan OpenAI terlibat dalam proyek ini untuk mendukung pengembangan akses data yang dikelola demi kepentingan publik dan untuk membantu industri AI yang lebih kecil.Q
Apa dampak dari dataset publik terhadap industri kecerdasan buatan?A
Dataset publik dapat mengurangi ketergantungan pada materi berhak cipta dan memberikan alternatif yang sah untuk melatih model kecerdasan buatan.