Courtesy of TechCrunch
Perusahaan kini semakin memperhatikan biaya saat menggunakan AI generatif, terutama saat beralih dari prototipe ke produksi. Salah satu cara untuk mengurangi biaya adalah dengan menggunakan konsep caching, yang memungkinkan pengguna untuk tidak membayar berulang kali untuk pertanyaan yang sama. AWS, dalam konferensi re:invent di Las Vegas, mengumumkan fitur caching yang dapat mengurangi biaya hingga 90% dan mempercepat waktu respons hingga 85%. Selain itu, mereka juga memperkenalkan sistem pengalihan permintaan yang cerdas, yang secara otomatis mengarahkan pertanyaan ke model yang lebih kecil dan lebih murah jika pertanyaannya sederhana, sehingga membantu perusahaan menghemat biaya.
AWS juga meluncurkan pasar baru untuk model-model khusus yang mungkin hanya digunakan oleh sedikit pengguna. Di pasar ini, pengguna harus mengelola kapasitas infrastruktur mereka sendiri, berbeda dengan layanan Bedrock yang biasanya mengurusnya secara otomatis. AWS akan menawarkan sekitar 100 model khusus ini, dengan rencana untuk menambah lebih banyak di masa depan. Dengan fitur-fitur ini, AWS berharap dapat membantu perusahaan dalam menggunakan AI generatif dengan lebih efisien dan hemat biaya.
Pertanyaan Terkait
Q
Apa yang diumumkan AWS di konferensi re:invent?A
AWS mengumumkan fitur baru untuk layanan Bedrock, termasuk caching dan routing prompt.Q
Bagaimana caching dapat mengurangi biaya penggunaan model bahasa?A
Caching dapat mengurangi biaya penggunaan model bahasa dengan menghindari pengulangan pemrosesan untuk pertanyaan yang sama.Q
Apa itu routing prompt dan bagaimana cara kerjanya?A
Routing prompt adalah sistem yang secara otomatis mengarahkan permintaan ke model yang sesuai berdasarkan kompleksitas pertanyaan.Q
Siapa Atul Deo dan apa perannya di AWS?A
Atul Deo adalah direktur produk untuk Bedrock di AWS yang menjelaskan fitur baru yang diluncurkan.Q
Apa tujuan dari pasar model yang diluncurkan oleh AWS?A
Tujuan dari pasar model adalah untuk mendukung model-model khusus yang memiliki pengguna terbatas dan memberikan pengguna lebih banyak kontrol atas infrastruktur.