通过视频生成模型,利用视频数据解决现实世界中的任务是一个被低估的机会,可以在机器人、自动驾驶和科学等领域产生重大影响,但需要解决视频生成中的关键挑战。
Feb, 2024
在这篇论文中,我们提出了一种视觉 - 运动策略学习框架,该框架在给定任务的人类示范中对视频扩散模型进行微调。在测试阶段,我们生成了一个以新颖场景的图像为条件的任务执行示例,并直接使用这个合成的执行结果来控制机器人。我们的主要观点是,使用常用工具可以轻松地弥合人手和机器人操作者之间的具身隔阂。我们在四个复杂度不断增加的任务上评估了我们的方法,并证明利用互联网规模的生成模型使得学习策略可以比现有行为克隆方法实现更高程度的泛化。
Jun, 2024
本文提出了一种新的过程规划公式,通过贝叶斯推论和基于模型的模仿学习,建模人类行为,从而在实际的指导视频中实现了它,证明了我们的方法可以实现达到指定目标的最先进性能的同时,学习到的上下文信息以潜在空间的形式表现出有趣的特征。
Oct, 2021
本文提出了一种新颖的对抗式逆强化学习算法,使用条件化语言政策和奖励函数,以及使用变分目标生成器提高学习策略和奖励函数的泛化性,从而使自然语言变得可用于指导智能体任务的目标, 获得了非常好的性能表现。
Aug, 2020
提出了一种新的多媒体生成式脚本学习任务,通过同时跟踪文本和视觉模态中的历史状态,并以描述性图像呈现,旨在生成可视状态跟踪、对未见任务有归纳性和具有多样性的脚本,通过多媒体选性编码器实现对视觉状态变化的编码,使用检索增强解码器从以前观察到的任务中传递知识,通过优化多样性导向的对比学习目标,呈现每个步骤的不同信息。实验结果表明,该方法显著优于强基线。
Aug, 2022
通过使用少量语言数据,我们提出了一种联合图像和目标条件策略的方法来解决语言指示问题,该方法获得了在不同场景下进行操作任务的指令跟随表现,并具有从标记数据中外推语言指示的能力。
Jun, 2023
通过一个基于视频的条件学习智能体(ViP)方法,本文提出了一种无需训练数据就能够通过人类演示来控制机器人操作的方法,该方法在多项机器人操作环境中的表现优于现有技术,并在新的零样本设置中展现出良好的性能,可能具有广泛的应用前景。
May, 2023
本文介绍一种可以从视频演示中提取概括性规则的模型,并探讨了其处理多个序列的能力,从而相较于传统的概括技术可以更好地利用边缘情况,并无需进行额外的过滤。通过在 Vizdoom 环境中合成程序的实验,取得了相对于现有工作的 11.75% 的程序准确性的提升。
Feb, 2023
本文提出了一种交互式的任务规范问题形式,通过自然语言指令和一系列语言修正来引导自主代理获得新技能,实现快速获取新技能,显著优于直接非交互式指令跟随。
Nov, 2018
本文介绍了两种自动化技术,基于深度强化学习和奖励塑造来控制计算机生成的故事的情节,其中一种利用 PPO 对现有的基于变压器的语言模型进行微调,以生成既能连续文本又能寻求目标的故事;而另一种从不断展开的故事中提取出一个知识图谱,由含有图形注意力机制的策略网络选择由语言模型生成的一个候选连续行。我们根据自动化指标和人类参与者对连贯性和整体故事质量的排名来报告与基线和消融情况的比较。
Dec, 2021