Wikimedia dan Kaggle Rilis Dataset Wikipedia untuk Pengembang AI
Courtesy of TheVerge

Rangkuman Berita: Wikimedia dan Kaggle Rilis Dataset Wikipedia untuk Pengembang AI

Menyediakan dataset Wikipedia yang terstruktur dan mudah diakses untuk pengembang AI guna mengurangi beban pada server Wikipedia.

TheVerge
Dari TheVerge
17 April 2025 pukul 17.07 WIB
30 dibaca
Share
Ikhtisar 15 Detik
  • Wikimedia Foundation merilis dataset untuk mendukung pengembang AI.
  • Dataset ini dirancang untuk memudahkan akses dan penggunaan data Wikipedia.
  • Kerja sama dengan Kaggle bertujuan untuk mengurangi beban server akibat scraping.
global - Wikipedia sedang berusaha mengurangi pengambilan data otomatis oleh pengembang kecerdasan buatan yang membebani server mereka. Untuk itu, Wikimedia Foundation telah bermitra dengan Kaggle untuk merilis dataset beta konten Wikipedia terstruktur dalam bahasa Inggris dan Prancis. Dataset ini dirancang dengan alur kerja pembelajaran mesin dalam pikiran, membuatnya lebih mudah diakses oleh pengembang AI.
Konten dalam dataset ini berlisensi terbuka dan mencakup ringkasan penelitian, deskripsi singkat, tautan gambar, data infobox, dan bagian artikel. Namun, dataset ini tidak menyertakan referensi atau elemen non-teks seperti file audio. Dengan menyediakan dataset yang terstruktur ini, Wikimedia berharap dapat mengurangi beban pada server mereka yang disebabkan oleh pengambilan data otomatis.
Wikimedia sudah memiliki perjanjian berbagi konten dengan Google dan Internet Archive, tetapi kemitraan dengan Kaggle ini diharapkan membuat data lebih mudah diakses oleh perusahaan kecil dan ilmuwan data independen. Kaggle sangat senang menjadi tuan rumah data ini dan berperan dalam menjaga data tetap dapat diakses, tersedia, dan berguna bagi komunitas pembelajaran mesin.

Pertanyaan Terkait

Q
Apa tujuan dari dataset yang dirilis oleh Wikimedia Foundation?
A
Tujuan dari dataset yang dirilis oleh Wikimedia Foundation adalah untuk menyediakan alternatif yang lebih baik bagi pengembang AI daripada melakukan scraping konten Wikipedia.
Q
Dengan siapa Wikimedia Foundation bekerja sama untuk merilis dataset ini?
A
Wikimedia Foundation bekerja sama dengan Kaggle untuk merilis dataset ini.
Q
Apa saja jenis konten yang termasuk dalam dataset ini?
A
Jenis konten yang termasuk dalam dataset ini meliputi ringkasan penelitian, deskripsi singkat, tautan gambar, data infobox, dan bagian artikel.
Q
Mengapa Wikimedia Foundation ingin mengurangi scraping dari platform mereka?
A
Wikimedia Foundation ingin mengurangi scraping dari platform mereka karena hal tersebut menyebabkan beban pada server Wikipedia.
Q
Apa manfaat dari dataset ini bagi pengembang AI?
A
Manfaat dari dataset ini bagi pengembang AI adalah akses yang lebih mudah dan terstruktur untuk data artikel yang dapat digunakan untuk pelatihan dan analisis model.

Rangkuman Berita Serupa

Perusahaan Teknologi dan Perusahaan Jurnalisme Bergabung Kekuatan, TerkadangForbes
Teknologi
2 bulan lalu
72 dibaca

Perusahaan Teknologi dan Perusahaan Jurnalisme Bergabung Kekuatan, Terkadang

OpenAI menggunakan subreddit ini untuk menguji persuasi AI.TechCrunch
Teknologi
2 bulan lalu
49 dibaca

OpenAI menggunakan subreddit ini untuk menguji persuasi AI.

Harvard Mengeluarkan Dataset Pelatihan AI Gratis yang Besar Didanai oleh OpenAI dan MicrosoftWired
Teknologi
4 bulan lalu
124 dibaca

Harvard Mengeluarkan Dataset Pelatihan AI Gratis yang Besar Didanai oleh OpenAI dan Microsoft

Penerbit menjual makalah untuk melatih AI — dan menghasilkan jutaan dolar.NatureMagazine
Teknologi
4 bulan lalu
42 dibaca

Penerbit menjual makalah untuk melatih AI — dan menghasilkan jutaan dolar.

Linkup menghubungkan LLM dengan sumber konten premium (secara legal).TechCrunch
Bisnis
4 bulan lalu
72 dibaca

Linkup menghubungkan LLM dengan sumber konten premium (secara legal).

Minggu Ini dalam AI: Komisi Kongres memperingatkan tentang AGI TiongkokTechCrunch
Teknologi
5 bulan lalu
133 dibaca

Minggu Ini dalam AI: Komisi Kongres memperingatkan tentang AGI Tiongkok