Courtesy of TechCrunch
MLCommons, sebuah organisasi nonprofit yang fokus pada keselamatan AI, bekerja sama dengan platform pengembangan AI Hugging Face untuk merilis koleksi rekaman suara publik terbesar di dunia untuk penelitian AI. Dataset ini, yang disebut Unsupervised People’s Speech, berisi lebih dari satu juta jam audio dalam setidaknya 89 bahasa. Tujuan dari proyek ini adalah untuk mendukung penelitian dan pengembangan teknologi suara, terutama untuk bahasa-bahasa selain Inggris, agar teknologi komunikasi dapat diakses oleh lebih banyak orang di seluruh dunia.
Namun, ada risiko yang terkait dengan penggunaan dataset seperti ini. Salah satunya adalah data yang bias, karena sebagian besar rekaman dalam dataset ini berasal dari penutur bahasa Inggris dengan aksen Amerika. Hal ini dapat menyebabkan sistem AI, seperti pengenalan suara, kesulitan dalam memahami bahasa Inggris yang diucapkan oleh penutur non-pribumi atau dalam menghasilkan suara sintetis dalam bahasa lain. Selain itu, ada kekhawatiran bahwa beberapa orang mungkin tidak menyadari bahwa suara mereka digunakan untuk penelitian AI. Meskipun MLCommons berkomitmen untuk memperbarui dan meningkatkan kualitas dataset ini, para pengembang diharapkan untuk berhati-hati dalam penggunaannya.
Pertanyaan Terkait
Q
Apa tujuan dari dataset Unsupervised People’s Speech?A
Tujuan dari dataset Unsupervised People’s Speech adalah untuk mendukung penelitian dan pengembangan dalam teknologi berbicara di berbagai bahasa.Q
Siapa yang berkolaborasi dalam proyek ini?A
Proyek ini merupakan kolaborasi antara MLCommons dan Hugging Face.Q
Apa risiko yang terkait dengan penggunaan dataset ini?A
Risiko yang terkait dengan penggunaan dataset ini termasuk data bias dan kemungkinan penggunaan rekaman tanpa persetujuan dari pembicara.Q
Mengapa data bias menjadi masalah dalam dataset ini?A
Data bias menjadi masalah karena sebagian besar rekaman dalam dataset ini berasal dari penutur bahasa Inggris, yang dapat mempengaruhi kinerja model AI.Q
Apa yang dilakukan MLCommons untuk memastikan kualitas dataset?A
MLCommons berkomitmen untuk memperbarui, memelihara, dan meningkatkan kualitas dari dataset Unsupervised People’s Speech.