Courtesy of TechCrunch

Aya Vision: Model AI Multimodal Gratis untuk Tutup Kesenjangan Bahasa dan Gambar

04 Mar 2025, 23.33 WIB

236 dibaca

Ikhtisar 15 Detik

Aya Vision adalah model AI multimodal yang inovatif dan tersedia secara gratis.
Penggunaan data sintetis dalam pelatihan model dapat meningkatkan efisiensi dan aksesibilitas bagi komunitas riset.
AyaVisionBench memberikan kerangka kerja baru untuk mengevaluasi pemahaman multimodal dan lintas bahasa dari model AI.

Cohere, sebuah startup AI, baru saja meluncurkan model AI multimodal bernama Aya Vision yang dapat melakukan berbagai tugas seperti menulis keterangan gambar, menjawab pertanyaan tentang foto, menerjemahkan teks, dan membuat ringkasan dalam 23 bahasa utama. Model ini tersedia secara gratis melalui WhatsApp dan bertujuan untuk membantu peneliti di seluruh dunia dengan mengatasi kesenjangan dalam performa model AI di berbagai bahasa, terutama dalam tugas yang melibatkan teks dan gambar.

Aya Vision hadir dalam dua versi: Aya Vision 32B dan Aya Vision 8B. Versi 32B lebih canggih dan diklaim mampu mengungguli model-model lain yang lebih besar dalam beberapa pengujian pemahaman visual. Cohere juga merilis suite benchmark baru bernama AyaVisionBench untuk menguji kemampuan model dalam tugas-tugas yang menggabungkan visi dan bahasa. Dengan menggunakan anotasi sintetis untuk pelatihan, Cohere berharap dapat menghemat sumber daya dan mendukung komunitas penelitian yang sering kali memiliki akses terbatas ke sumber daya komputasi.

Referensi:
[1] https://techcrunch.com/2025/03/04/cohere-claims-its-new-aya-vision-ai-model-is-best-in-class/

Analisis Ahli

Andrew Ng

"Penggunaan data sintetis dan model multimodal seperti Aya Vision sangat penting untuk mengatasi keterbatasan data nyata dan membuka jalan bagi aplikasi AI yang lebih inklusif dan efisien."

Fei-Fei Li

"Penting untuk memiliki benchmark baru yang menilai model secara menyeluruh, terutama yang mempertimbangkan aspek multibahasa dan multimodal, agar teknologi AI benar-benar bermanfaat secara global."

Analisis Kami

"Aya Vision menandai langkah penting dalam mendorong inklusivitas bahasa dan multimodal di bidang AI, lewat pendekatan efisien dan terbuka yang menunjukkan bahwa kualitas tidak selalu bergantung pada ukuran model yang besar. Namun, larangan penggunaan komersial bisa membatasi adopsi lebih luas dan pengembangan ekosistem aplikasi yang berkelanjutan."

Prediksi Kami

Dengan ketersediaan model AI multimodal yang lebih efisien dan open-source seperti Aya Vision, komunitas riset AI di seluruh dunia akan semakin terdorong untuk mengembangkan solusi AI yang lebih inklusif dan berkinerja tinggi di berbagai bahasa dan konteks multimodal.

Pertanyaan Terkait

Apa itu Aya Vision?

Aya Vision adalah model AI multimodal yang dapat melakukan tugas seperti menulis keterangan gambar dan menerjemahkan teks.

Apa tujuan dari peluncuran Aya Vision oleh Cohere?

Tujuan dari peluncuran Aya Vision adalah untuk menjembatani kesenjangan performa AI di berbagai bahasa dan membuat terobosan teknis lebih mudah diakses oleh peneliti di seluruh dunia.

Bagaimana Aya Vision dapat membantu komunitas riset?

Aya Vision dapat membantu komunitas riset dengan menyediakan model yang efisien dan akses ke benchmark untuk evaluasi kemampuan model.

Apa yang dimaksud dengan data sintetis dalam konteks pelatihan model AI?

Data sintetis adalah data yang dihasilkan oleh AI untuk melatih model, yang memungkinkan penggunaan sumber daya yang lebih sedikit sambil tetap mencapai performa yang kompetitif.

Apa itu AyaVisionBench dan fungsinya?

AyaVisionBench adalah rangkaian benchmark baru yang dirilis untuk mengevaluasi keterampilan model dalam tugas-tugas bahasa-visual.