通过文本引导的视频生成学习通用策略

Jan, 2023

通过文本引导的视频生成学习通用策略

Learning Universal Policies via Text-Guided Video Generation

Yilun Du, Mengjiao Yang, Bo Dai, Hanjun Dai, Ofir Nachum...

TL;DR通过将序列化决策问题转化为文本条件下的视频生成问题，我们能够推广到新的目标并在不同的环境下进行学习和泛化，从而建立更加通用的智能体。

Abstract

A goal of artificial intelligence is to construct an agent that can solve a wide variety of tasks. Recent progress in text-guided image synthesis has yielded models with an impressive ability to generate complex

artificial intelligence text-guided image synthesis sequential decision making planner video generation

发现论文，激发创造

以视频为新语言进行现实世界决策

通过视频生成模型，利用视频数据解决现实世界中的任务是一个被低估的机会，可以在机器人、自动驾驶和科学等领域产生重大影响，但需要解决视频生成中的关键挑战。

Feb, 2024

Dreamitate: 通过视频生成进行真实世界视觉运动策略学习

在这篇论文中，我们提出了一种视觉 - 运动策略学习框架，该框架在给定任务的人类示范中对视频扩散模型进行微调。在测试阶段，我们生成了一个以新颖场景的图像为条件的任务执行示例，并直接使用这个合成的执行结果来控制机器人。我们的主要观点是，使用常用工具可以轻松地弥合人手和机器人操作者之间的具身隔阂。我们在四个复杂度不断增加的任务上评估了我们的方法，并证明利用互联网规模的生成模型使得学习策略可以比现有行为克隆方法实现更高程度的泛化。

Jun, 2024

通过情境建模和基于模型的策略学习在教学视频中进行程序规划

本文提出了一种新的过程规划公式，通过贝叶斯推论和基于模型的模仿学习，建模人类行为，从而在实际的指导视频中实现了它，证明了我们的方法可以实现达到指定目标的最先进性能的同时，学习到的上下文信息以潜在空间的形式表现出有趣的特征。

Oct, 2021

具备自然语言目标的逆强化学习

本文提出了一种新颖的对抗式逆强化学习算法，使用条件化语言政策和奖励函数，以及使用变分目标生成器提高学习策略和奖励函数的泛化性，从而使自然语言变得可用于指导智能体任务的目标，获得了非常好的性能表现。

Aug, 2020

多媒体生成式脚本学习用于任务规划

提出了一种新的多媒体生成式脚本学习任务，通过同时跟踪文本和视觉模态中的历史状态，并以描述性图像呈现，旨在生成可视状态跟踪、对未见任务有归纳性和具有多样性的脚本，通过多媒体选性编码器实现对视觉状态变化的编码，使用检索增强解码器从以前观察到的任务中传递知识，通过优化多样性导向的对比学习目标，呈现每个步骤的不同信息。实验结果表明，该方法显著优于强基线。

Aug, 2022

指令跟踪的目标表示：半监督语言接口控制

通过使用少量语言数据，我们提出了一种联合图像和目标条件策略的方法来解决语言指示问题，该方法获得了在不同场景下进行操作任务的指令跟随表现，并具有从标记数据中外推语言指示的能力。

Jun, 2023

学习基于视频的策略用于未见过的操纵任务

通过一个基于视频的条件学习智能体（ViP）方法，本文提出了一种无需训练数据就能够通过人类演示来控制机器人操作的方法，该方法在多项机器人操作环境中的表现优于现有技术，并在新的零样本设置中展现出良好的性能，可能具有广泛的应用前景。

May, 2023

多樣視頻演示生成程序

本文介绍一种可以从视频演示中提取概括性规则的模型，并探讨了其处理多个序列的能力，从而相较于传统的概括技术可以更好地利用边缘情况，并无需进行额外的过滤。通过在 Vizdoom 环境中合成程序的实验，取得了相对于现有工作的 11.75% 的程序准确性的提升。

Feb, 2023

通过元学习用语言指导政策

本文提出了一种交互式的任务规范问题形式，通过自然语言指令和一系列语言修正来引导自主代理获得新技能，实现快速获取新技能，显著优于直接非交互式指令跟随。

Nov, 2018

目标导向的故事生成：用强化学习增强生成式语言模型

本文介绍了两种自动化技术，基于深度强化学习和奖励塑造来控制计算机生成的故事的情节，其中一种利用 PPO 对现有的基于变压器的语言模型进行微调，以生成既能连续文本又能寻求目标的故事；而另一种从不断展开的故事中提取出一个知识图谱，由含有图形注意力机制的策略网络选择由语言模型生成的一个候选连续行。我们根据自动化指标和人类参与者对连贯性和整体故事质量的排名来报告与基线和消融情况的比较。

Dec, 2021