Mar, 2024

MOKA:基于标记的视觉提示的开放词汇机器人操纵

TL;DR利用开放词汇泛化的方法,本文提出了MOKA(标记开放词汇关键点可利用性)来使用视觉语言模型解决由自由形式语言描述的机器人操作任务,通过在图像上注记关键点和航点的预测,将问题转化为视觉问答问题,并通过上下文学习和策略精炼提升性能,验证并分析了MOKA在以自由形式语言描述的各种操纵任务中的表现,如工具使用、可塑性物体操作和物体重新排列。