Courtesy of TechCrunch
Ikhtisar 15 Detik
- ElevenLabs meluncurkan model Scribe untuk bersaing dalam layanan speech-to-text.
- Model Scribe mendukung lebih dari 99 bahasa dengan akurasi tinggi.
- Perusahaan berencana untuk merilis versi real-time dari model Scribe di masa depan.
ElevenLabs, sebuah startup AI yang baru saja mengumpulkan dana sebesar Rp 2.96 triliun ($180 juta) , telah meluncurkan model speech-to-text pertama mereka yang bernama Scribe. Model ini mendukung lebih dari 99 bahasa dan memiliki akurasi tinggi untuk lebih dari 25 bahasa, termasuk Inggris, Prancis, Jerman, dan Spanyol. Scribe juga memiliki fitur canggih seperti diarization pembicara, yang dapat menentukan siapa yang berbicara, serta penandaan otomatis untuk suara seperti tawa penonton. Meskipun saat ini Scribe hanya dapat digunakan untuk audio yang sudah direkam, perusahaan berencana untuk merilis versi real-time yang dapat digunakan untuk transkripsi pertemuan.
CEO ElevenLabs, Mati Staniszewski, mengatakan bahwa mereka ingin meningkatkan pemahaman dan transkripsi percakapan. Meskipun banyak orang berpendapat bahwa masalah speech-to-text sudah terpecahkan, mereka percaya masih ada banyak bahasa yang akurasinya perlu ditingkatkan. Scribe dipasarkan dengan harga Rp 657.80 ribu ($0,40) per jam untuk audio yang ditranskripsikan, meskipun beberapa pesaing menawarkan harga yang lebih rendah.
Pertanyaan Terkait
Q
Apa yang diluncurkan oleh ElevenLabs?A
ElevenLabs meluncurkan model speech-to-text pertama mereka yang disebut Scribe.Q
Berapa banyak bahasa yang didukung oleh model Scribe?A
Model Scribe mendukung lebih dari 99 bahasa.Q
Apa yang menjadi fokus utama CEO ElevenLabs, Mati Staniszewski?A
Mati Staniszewski fokus pada pengembangan model deteksi suara yang lebih baik.Q
Bagaimana akurasi model Scribe dibandingkan dengan model lain?A
Model Scribe mengungguli Google Gemini 2.0 Flash dan Whisper Large V3 dalam pengujian akurasi.Q
Apa fitur utama yang ditawarkan oleh model Scribe?A
Fitur utama Scribe termasuk diarization pembicara, timestamp pada level kata, dan penandaan otomatis peristiwa suara.