Mar, 2024
Vid2Robot: 基于跨引注意力变形器的端到端视频条件策略学习
Vid2Robot: End-to-end Video-conditioned Policy Learning with
Cross-Attention Transformers
TL;DR通过观察人类行为并将其翻译成可执行的动作,本研究介绍了一种基于视频学习的机器人框架Vid2Robot,它通过训练机器人模型利用人类视频和机器人轨迹数据集进行任务执行。该模型利用交叉注意力机制将提示视频特征融合到机器人的当前状态中,并生成能够模仿所观察任务的适当动作,大幅提升执行效果,同时显示着在真实世界应用中的潜力。