MLCommons dan Hugging Face bekerja sama untuk merilis dataset suara besar untuk penelitian AI.
Courtesy of TechCrunch

Rangkuman Berita: MLCommons dan Hugging Face bekerja sama untuk merilis dataset suara besar untuk penelitian AI.

TechCrunch
Dari TechCrunch
01 Februari 2025 pukul 05.04 WIB
60 dibaca
Share
MLCommons, sebuah organisasi nonprofit yang fokus pada keselamatan AI, bekerja sama dengan platform pengembangan AI Hugging Face untuk merilis koleksi rekaman suara publik terbesar di dunia untuk penelitian AI. Dataset ini, yang disebut Unsupervised People’s Speech, berisi lebih dari satu juta jam audio dalam setidaknya 89 bahasa. Tujuan dari proyek ini adalah untuk mendukung penelitian dan pengembangan teknologi suara, terutama untuk bahasa-bahasa selain Inggris, agar teknologi komunikasi dapat diakses oleh lebih banyak orang di seluruh dunia.
Namun, ada risiko yang terkait dengan penggunaan dataset seperti ini. Salah satunya adalah data yang bias, karena sebagian besar rekaman dalam dataset ini berasal dari penutur bahasa Inggris dengan aksen Amerika. Hal ini dapat menyebabkan sistem AI, seperti pengenalan suara, kesulitan dalam memahami bahasa Inggris yang diucapkan oleh penutur non-pribumi atau dalam menghasilkan suara sintetis dalam bahasa lain. Selain itu, ada kekhawatiran bahwa beberapa orang mungkin tidak menyadari bahwa suara mereka digunakan untuk penelitian AI. Meskipun MLCommons berkomitmen untuk memperbarui dan meningkatkan kualitas dataset ini, para pengembang diharapkan untuk berhati-hati dalam penggunaannya.

Pertanyaan Terkait

Q
Apa tujuan dari dataset Unsupervised People’s Speech?
A
Tujuan dari dataset Unsupervised People’s Speech adalah untuk mendukung penelitian dan pengembangan dalam teknologi berbicara di berbagai bahasa.
Q
Siapa yang berkolaborasi dalam proyek ini?
A
Proyek ini merupakan kolaborasi antara MLCommons dan Hugging Face.
Q
Apa risiko yang terkait dengan penggunaan dataset ini?
A
Risiko yang terkait dengan penggunaan dataset ini termasuk data bias dan kemungkinan penggunaan rekaman tanpa persetujuan dari pembicara.
Q
Mengapa data bias menjadi masalah dalam dataset ini?
A
Data bias menjadi masalah karena sebagian besar rekaman dalam dataset ini berasal dari penutur bahasa Inggris, yang dapat mempengaruhi kinerja model AI.
Q
Apa yang dilakukan MLCommons untuk memastikan kualitas dataset?
A
MLCommons berkomitmen untuk memperbarui, memelihara, dan meningkatkan kualitas dari dataset Unsupervised People’s Speech.

Rangkuman Berita Serupa

4 Peringatan Tentang DeepSeek yang Perlu Anda Ketahui Sebelum MenggunakannyaForbes
Teknologi
2 bulan lalu
118 dibaca
4 Peringatan Tentang DeepSeek yang Perlu Anda Ketahui Sebelum Menggunakannya
MLCommons dan Hugging Face bekerja sama untuk merilis kumpulan data suara besar untuk penelitian AI.TechCrunch
Teknologi
2 bulan lalu
87 dibaca
MLCommons dan Hugging Face bekerja sama untuk merilis kumpulan data suara besar untuk penelitian AI.
OpenAI gagal menyediakan alat opt-out yang dijanjikannya pada tahun 2025.TechCrunch
Teknologi
3 bulan lalu
103 dibaca
OpenAI gagal menyediakan alat opt-out yang dijanjikannya pada tahun 2025.
Harvard Mengeluarkan Dataset Pelatihan AI Gratis yang Besar Didanai oleh OpenAI dan MicrosoftWired
Teknologi
4 bulan lalu
122 dibaca
Harvard Mengeluarkan Dataset Pelatihan AI Gratis yang Besar Didanai oleh OpenAI dan Microsoft
Minggu Ini dalam AI: Komisi Kongres memperingatkan tentang AGI TiongkokTechCrunch
Teknologi
5 bulan lalu
123 dibaca
Minggu Ini dalam AI: Komisi Kongres memperingatkan tentang AGI Tiongkok
Minggu Ini dalam AI: Sangat mudah untuk membuat deepfake Kamala Harris.TechCrunch
Teknologi
5 bulan lalu
83 dibaca
Minggu Ini dalam AI: Sangat mudah untuk membuat deepfake Kamala Harris.