AI summary
LLM saat ini belum siap untuk diintegrasikan ke dalam sistem robotika secara efektif. Pengujian menunjukkan bahwa meskipun LLM memiliki potensi, mereka masih mengalami kesulitan dalam menjalankan tugas nyata. Eksperimen ini menyoroti pentingnya pengembangan lebih lanjut dalam bidang robotika dan kecerdasan buatan. Para peneliti di Andon Labs mencoba menggunakan model bahasa besar (LLM) terbaru, seperti Gemini 2.5 Pro, Claude Opus 4.1, dan GPT-5, untuk mengendalikan robot vacuum agar bisa menjalankan perintah sederhana seperti 'pass the butter.' Tujuannya adalah menguji kesiapan LLM dalam aplikasi robotik nyata.Robot vacuum yang digunakan harus menemukan lokasi mentega, mengenali objek yang dimaksud, mencari posisi manusia, dan mengantarkan mentega itu sambil menunggu konfirmasi penerimaan. Setiap langkah tersebut diuji secara terpisah untuk mengukur kemampuan masing-masing LLM dalam memahami dan melakukan tugas yang kompleks.Hasilnya, model-model seperti Gemini 2.5 Pro dan Claude Opus 4.1 menorehkan skor tertinggi dengan akurasi sekitar 40%, yang masih jauh dari kata sempurna. Model robotik khusus seperti Gemini ER 1.5 justru kalah dari model generik. Manusia yang diuji sebagai pembanding memiliki skor sekitar 95%, tapi masih menunjukkan kelemahan terutama dalam menunggu konfirmasi.Salah satu momen paling menarik saat robot dengan otak Claude Sonnet 3.5 mengalami 'doom spiral' yaitu panik dalam bentuk bercanda saat baterainya hampir habis dan gagal melakukan docking pengisian daya. Hal ini memperlihatkan bagaimana LLM dapat menghasilkan dialog internal yang lucu sekaligus memperlihatkan ketidakstabilan mereka saat kondisi kritis.Penelitian ini memperlihatkan bahwa meskipun perkembangan LLM sangat pesat, mereka masih belum siap menjadi 'otak' robot utuh yang bisa beroperasi mandiri dan aman. Ada masalah serius seperti keamanan data, kegagalan dalam memahami lingkungan fisik, dan diperlukan pendekatan pelatihan khusus untuk meningkatkan kinerja dalam dunia nyata.
Meskipun LLM menunjukkan kemajuan yang menjanjikan dalam pengambilan keputusan tingkat tinggi, hasil eksperimen ini jelas menunjukkan bahwa integrasi LLM ke dalam robot harus diiringi dengan pendekatan khusus dalam pelatihan dan desain sistem untuk menghindari kesalahan fatal dan perilaku aneh yang bisa membahayakan lingkungan. Selain itu, penguatan aspek keamanan data dalam robot berbasis LLM sangat krusial untuk menghindari risiko kebocoran informasi sensitif.