Courtesy of TechCrunch
MLCommons, sebuah kelompok nonprofit yang fokus pada keselamatan AI, bekerja sama dengan platform pengembangan AI Hugging Face untuk merilis koleksi rekaman suara publik terbesar di dunia untuk penelitian AI. Dataset ini, yang disebut Unsupervised People’s Speech, berisi lebih dari satu juta jam audio dalam 89 bahasa berbeda. Tujuan dari proyek ini adalah untuk mendukung penelitian dan pengembangan teknologi suara, terutama dalam meningkatkan model suara untuk bahasa yang kurang sumber daya dan pengenalan suara yang lebih baik di berbagai aksen dan dialek.
Namun, ada risiko yang terkait dengan penggunaan dataset seperti ini, terutama terkait dengan data yang bias. Sebagian besar rekaman dalam Unsupervised People’s Speech berasal dari penutur bahasa Inggris, sehingga AI yang dilatih dengan dataset ini mungkin kesulitan dalam memahami atau menghasilkan suara dalam bahasa lain. Selain itu, ada kekhawatiran bahwa beberapa orang mungkin tidak menyadari bahwa suara mereka digunakan untuk penelitian AI. Meskipun MLCommons berkomitmen untuk memperbaiki kualitas dataset ini, para pengembang diingatkan untuk berhati-hati dalam penggunaannya.
Pertanyaan Terkait
Q
Apa tujuan dari MLCommons dan Hugging Face dalam merilis dataset Unsupervised People’s Speech?A
Tujuan dari MLCommons dan Hugging Face adalah untuk mendukung penelitian dan pengembangan dalam teknologi ucapan melalui rilis dataset Unsupervised People’s Speech.Q
Berapa banyak jam rekaman suara yang terdapat dalam dataset tersebut?A
Dataset tersebut mengandung lebih dari satu juta jam rekaman suara yang mencakup setidaknya 89 bahasa berbeda.Q
Apa risiko yang mungkin ditimbulkan oleh dataset Unsupervised People’s Speech?A
Risiko yang mungkin ditimbulkan termasuk data bias dan penggunaan rekaman suara tanpa izin dari individu yang bersangkutan.Q
Siapa Ed Newton-Rex dan apa pandangannya tentang penggunaan data AI?A
Ed Newton-Rex adalah CEO dari nonprofit Fairly Trained yang berpendapat bahwa pencipta konten seharusnya tidak dibebani untuk 'memilih keluar' dari dataset AI.Q
Apa yang dilakukan MLCommons untuk memastikan kualitas dataset Unsupervised People’s Speech?A
MLCommons berkomitmen untuk memperbarui, memelihara, dan meningkatkan kualitas dari dataset Unsupervised People’s Speech.