Pomodo
HomeTeknologiBisnisSainsFinansial

EleutherAI Rilis Dataset Legal Terbesar untuk Latih Model AI Unggul dan Transparan

Teknologi
Kecerdasan Buatan
artificial-intelligence (9mo ago) artificial-intelligence (9mo ago)
07 Jun 2025
193 dibaca
2 menit
EleutherAI Rilis Dataset Legal Terbesar untuk Latih Model AI Unggul dan Transparan

Rangkuman 15 Detik

EleutherAI merilis Common Pile v0.1 untuk mendukung penelitian AI yang transparan.
Model Comma v0.1-1T dan Comma v0.1-2T menunjukkan bahwa data berlisensi dapat menghasilkan model AI yang berkualitas.
Tuntutan hukum terhadap penggunaan data berhak cipta telah mempengaruhi transparansi dalam pengembangan model AI.
EleutherAI baru saja merilis The Common Pile v0.1, sebuah kumpulan data teks terbuka dan berlisensi yang besar dan legal untuk melatih model AI. Dataset ini merupakan hasil kolaborasi dengan berbagai startup dan institusi selama dua tahun dan berukuran sekitar 8 terabyte. Tujuan berdirinya dataset ini adalah untuk menjawab tantangan hukum yang dialami industri AI terkait penggunaan data berhak cipta yang masih dipermasalahkan dalam pengadilan. EleutherAI ingin mendorong transparansi dan penelitian yang lebih terbuka dengan menyediakan data yang aman dari masalah hukum. Model AI terbaru EleutherAI, Comma v0.1-1T dan Comma v0.1-2T, dilatih hanya menggunakan sebagian kecil dari dataset ini dan menunjukkan performa yang setara dengan model komersial populer seperti Meta Llama dalam pengujian di bidang coding, pengenalan gambar, dan matematika. Dataset ini dibuat dengan sumber utama buku domain publik dari Library of Congress dan Internet Archive serta menggunakan teknologi OpenAI Whisper untuk transkripsi audio. Pendekatan ini memastikan data yang digunakan mematuhi peraturan hak cipta dan tetap berkualitas tinggi. EleutherAI percaya bahwa masa depan pengembangan AI yang terbuka dan bertanggung jawab bisa didukung dengan data berlisensi terbuka dan domain publik. Mereka berkomitmen untuk terus merilis dataset seperti ini lebih sering agar komunitas riset mendapatkan akses data yang legal dan membantu kemajuan AI.