Jan, 2024

MResT:多分辨率感知实时控制的视觉语言模型

TL;DR使用不同空间和时间分辨率的感知模式可以提高机器人操作任务的性能。本研究提出了一种名为 MResT(多分辨率变压器)的框架,利用具有不同容量的网络学习可推广的语言条件多任务策略,以有效地进行精确和反应迅速的实时控制。通过在 3 个领域(粗糙、精确和动态操作任务)进行大量实验,我们证明了我们的方法相对于最近的多任务基线显著改进(平均提升了 2 倍)。此外,我们的方法对目标物体的视觉和几何变化以及交互力的变化具有很好的普适性。