Sep, 2024

从多模态演示学习任务规划以实现多阶段接触丰富的操作

TL;DR本研究解决了在复杂接触操作任务中,单靠视觉信息不足以充分理解演示的问题。通过引入触觉和力-扭矩信息,提出了一种新的在上下文学习框架,增强了大型语言模型生成新任务情景的规划能力。实验表明,该框架显著提升了多模态演示的理解和规划性能,为实际机器人操作提供了更有效的支持。