ViLLA (Vision-Language-Latent-Action) adalah kerangka kerja yang diperkenalkan oleh AgiBot untuk meningkatkan pembelajaran robot dengan menggabungkan pemodelan visi, bahasa, dan aksi. Kerangka ini membantu robot memahami adegan dan melaksanakan tugas dengan lebih baik.