Courtesy of TechCrunch
Ikhtisar 15 Detik
- Nova Sonic adalah model AI suara terbaru dari Amazon yang menawarkan interaksi lebih alami.
- Model ini lebih efisien biaya dan lebih akurat dalam pengenalan suara dibandingkan dengan pesaingnya.
- Amazon berencana untuk mengembangkan lebih banyak model AI yang dapat memahami berbagai jenis data dan modalitas.
Amerika Serikat - Amazon baru saja meluncurkan Nova Sonic, model AI generatif baru yang mampu memproses suara secara native dan menghasilkan ucapan yang terdengar alami. Model ini diklaim bersaing dengan model suara terdepan dari OpenAI dan Google dalam hal kecepatan, pengenalan suara, dan kualitas percakapan.
Nova Sonic tersedia melalui platform Bedrock Amazon dan sudah digunakan dalam Alexa+, asisten suara digital yang ditingkatkan dari Amazon. Model ini juga lebih efisien biaya, sekitar 80% lebih murah daripada model GPT-4o dari OpenAI.
Nova Sonic memiliki tingkat kesalahan kata (WER) hanya 4.2% pada beberapa bahasa dan 46.7% lebih akurat dalam pengenalan suara dibandingkan model GPT-4o-transcribe dari OpenAI. Dengan latensi rata-rata 1.09 detik, Nova Sonic lebih cepat daripada model GPT-4o dari OpenAI.
Pertanyaan Terkait
Q
Apa itu Nova Sonic?A
Nova Sonic adalah model AI suara generatif yang diluncurkan oleh Amazon, mampu memproses suara dan menghasilkan ucapan alami.Q
Bagaimana Nova Sonic dibandingkan dengan model suara lainnya?A
Nova Sonic diklaim memiliki kinerja yang kompetitif dengan model suara dari OpenAI dan Google, serta lebih efisien biaya.Q
Apa keunggulan Nova Sonic dalam pengenalan suara?A
Nova Sonic memiliki tingkat kesalahan pengenalan kata yang rendah dan lebih baik dalam memahami niat pengguna meskipun dalam kondisi bising.Q
Siapa yang mengembangkan Nova Sonic?A
Nova Sonic dikembangkan oleh Amazon, dengan Rohit Prasad sebagai Wakil Presiden Senior dan Kepala Ilmuwan AGI yang terlibat dalam proyek ini.Q
Apa tujuan jangka panjang Amazon dengan Nova Sonic?A
Tujuan jangka panjang Amazon adalah membangun kecerdasan umum buatan (AGI) yang dapat memahami berbagai modalitas, termasuk suara, gambar, dan video.