通过离散扩散进行大规模无操作视频预训练,实现高效策略学习
通过使用图像作为任务非特定的表示,编码状态和动作信息,以及使用文本作为设置机器人目标的一般表示,我们提出了一种构建视频机器人策略的方法,可以在没有使用任何动作注释的情况下,从少量视频示例中可靠地执行不同机器人和环境中的各种任务。
Oct, 2023
在这篇论文中,我们提出了一种视觉 - 运动策略学习框架,该框架在给定任务的人类示范中对视频扩散模型进行微调。在测试阶段,我们生成了一个以新颖场景的图像为条件的任务执行示例,并直接使用这个合成的执行结果来控制机器人。我们的主要观点是,使用常用工具可以轻松地弥合人手和机器人操作者之间的具身隔阂。我们在四个复杂度不断增加的任务上评估了我们的方法,并证明利用互联网规模的生成模型使得学习策略可以比现有行为克隆方法实现更高程度的泛化。
Jun, 2024
本文介绍了一种通过生成式预训练学习得到的视觉表示,用于有效地加速并提高多种任务下视觉增强学习系统性能和效率的框架。我们在视频数据上预训练了一个无动作潜在视频预测模型,并将这些表示用于未知环境下的学习操作条件下的世界模型。我们还引入了一个新的架构,该架构在预训练的无动作预测模型的基础上堆叠了一个动作条件潜在预测模型,以更好地实现探索。同时也提出了基于视频的内在激励奖励机制,利用预训练表示的优势,有效提升了数据利用率和最终权能的完成度。
Mar, 2022
通过一个基于视频的条件学习智能体(ViP)方法,本文提出了一种无需训练数据就能够通过人类演示来控制机器人操作的方法,该方法在多项机器人操作环境中的表现优于现有技术,并在新的零样本设置中展现出良好的性能,可能具有广泛的应用前景。
May, 2023
通过学习无结构和未经整理的数据来生成语言和视觉方面的方法成为了主流。本论文研究了从带有事后语言标签的无结构游戏数据中学习目标导向技能策略的问题,并借助扩散模型的进展,从无结构游戏数据中提取机器人技能。
Dec, 2023
在教学视频的程序规划中,处理由多个属于不同任务的动作类型组成的决策空间是一个关键挑战。为了理解现实世界的视频内容,人工智能代理系统必须能够根据简要的视觉观察熟练地区分这些动作类型,并能够捕捉这些动作类型与任务目标之间的复杂语义关系以及可变的动作序列。最近,通过集成扩散模型和视觉表示学习取得了显著进展来应对这一挑战。然而,现有模型使用了基本机制来利用任务信息来管理决策空间。为了克服这个限制,我们引入了一种简单而有效的增强方法 - 掩蔽扩散模型。引入的掩蔽机制类似于一种面向任务的注意力过滤器,使得扩散 / 去噪过程能够集中在一部分动作类型上。此外,为了增强任务分类的准确性,我们采用了更强大的视觉表示学习技术。特别地,我们学习了一个联合视觉 - 文本嵌入,其中文本嵌入是通过提示一个预先训练的视觉 - 语言模型关注人类动作来生成的。我们在三个公共数据集上评估了该方法,并在多个指标上取得了最先进的性能。
Sep, 2023
本论文提出一种基于无标注训练数据的方法,结合深度动作条件视频预测模型和模型预测控制,使真实机器人能够进行非抓取操作,比如推动物体,并且可以处理训练过程中没有出现过的新物体。
Oct, 2016
通过建立一个可解释的参数生成数码,我们使用程序生成和其他现代游戏引擎的计算机图形技术生成了一组逼真、多样化和符合物理规律的人类动作视频,含 39,982 个视频。利用 UCF101 和 HMDB51 数据集的实验表明,我们的方法可以通过结合使用大量合成视频和小型真实数据集,大幅提高识别性能,明显优于现有的无监督生成模型的微调。
Dec, 2016