Courtesy of TechCrunch
Ikhtisar 15 Detik
- OpenAI meluncurkan model suara dan transkripsi baru yang lebih akurat dan dapat disesuaikan.
- Model gpt-4o-mini-tts memungkinkan pengembang untuk mengatur emosi dan konteks suara.
- OpenAI tidak akan merilis model transkripsi baru secara terbuka karena kompleksitasnya.
OpenAI telah meluncurkan model baru untuk transkripsi dan penghasil suara yang lebih baik daripada versi sebelumnya. Model-model ini termasuk "gpt-4o-mini-tts" untuk teks ke suara dan "gpt-4o-transcribe" untuk suara ke teks. Model suara baru ini dapat berbicara dengan berbagai gaya, seperti suara ilmuwan gila atau suara tenang seperti guru mindfulness. Tujuannya adalah agar pengembang dapat menyesuaikan pengalaman suara sesuai dengan konteks, misalnya, suara yang terdengar menyesal dalam layanan pelanggan.
Model transkripsi baru ini juga lebih akurat dan dapat menangkap berbagai aksen dengan lebih baik, bahkan dalam lingkungan yang bising. Namun, OpenAI tidak akan merilis model-model ini secara terbuka seperti sebelumnya, karena model ini lebih besar dan kompleks daripada model sebelumnya, Whisper. Mereka ingin memastikan bahwa rilis model terbuka dilakukan dengan hati-hati dan sesuai kebutuhan pengguna.
Pertanyaan Terkait
Q
Apa tujuan dari model gpt-4o-mini-tts yang baru?A
Tujuan dari model gpt-4o-mini-tts adalah untuk memberikan suara yang lebih realistis dan dapat disesuaikan, memungkinkan pengembang untuk mengatur cara berbicara dalam konteks yang berbeda.Q
Bagaimana gpt-4o-transcribe berbeda dari model Whisper sebelumnya?A
gpt-4o-transcribe lebih akurat dalam menangkap berbagai aksen dan berbicara dalam lingkungan yang bising dibandingkan dengan model Whisper sebelumnya.Q
Apa yang dimaksud dengan 'agen' dalam konteks artikel ini?A
Dalam konteks artikel ini, 'agen' merujuk pada sistem otomatis yang dapat melakukan tugas secara mandiri untuk pengguna, seperti chatbot yang berinteraksi dengan pelanggan bisnis.Q
Mengapa OpenAI tidak merilis model transkripsi baru secara terbuka?A
OpenAI tidak merilis model transkripsi baru secara terbuka karena model tersebut lebih besar dan kompleks dibandingkan Whisper, sehingga tidak cocok untuk dijalankan secara lokal.Q
Apa yang menjadi fokus utama OpenAI dalam pengembangan model suara dan transkripsi?A
Fokus utama OpenAI dalam pengembangan model suara dan transkripsi adalah untuk meningkatkan akurasi dan pengalaman pengguna dalam interaksi suara.