通过元学习用语言指导政策

ICLRNov, 2018

Guiding Policies with Language via Meta-Learning

John D. Co-Reyes, Abhishek Gupta, Suvansh Sanjeev, Nick Altieri, Jacob Andreas...

TL;DR本文提出了一种交互式的任务规范问题形式，通过自然语言指令和一系列语言修正来引导自主代理获得新技能，实现快速获取新技能，显著优于直接非交互式指令跟随。

Abstract

Behavioral skills or policies for autonomous agents are conventionally learned from reward functions, via reinforcement learning, or from demonstrations, via →

autonomous agents reinforcement learning imitation learning natural language instructions language-guided policy learning

发现论文，激发创造

指令跟踪的目标表示：半监督语言接口控制

通过使用少量语言数据，我们提出了一种联合图像和目标条件策略的方法来解决语言指示问题，该方法获得了在不同场景下进行操作任务的指令跟随表现，并具有从标记数据中外推语言指示的能力。

Jun, 2023

语言条件下的机器人操作任务模仿学习

这篇研究论文介绍了一种将自然语言引入模仿学习中的方法，可以让专家在提供动作演示的同时，提供自然语言的描述。通过融合语言、知觉和动作的关系，实现了更加精细的控制，降低了场景的模糊度。在七自由度机械臂控制任务上的模拟实验表明，此方法可有效学习自然语言条件下的机器人操作策略，并与其他方法相比做出了明显改进。

Oct, 2020

如何与人工智能对话：指令，描述和自主性

研究从语言中学习以实现语言使用与机器智能的价值对齐，分析了两种不同类别的语言，即指令和描述，运用上下文强化学习进行形式化的建模，并且验证了这种社会学习方法在传统的强化学习任务中可以降低遗憾值。

Jun, 2022

具备自然语言目标的逆强化学习

本文提出了一种新颖的对抗式逆强化学习算法，使用条件化语言政策和奖励函数，以及使用变分目标生成器提高学习策略和奖励函数的泛化性，从而使自然语言变得可用于指导智能体任务的目标，获得了非常好的性能表现。

Aug, 2020

向人类请教：利用人类指令提升强化学习的泛化能力

本文提出通过使用自然语言指令和行动轨迹演示来自动分解分层任务，以解决在稀疏奖励的强化学习设置中的复杂多任务问题，并证明人类演示有助于解决最复杂的任务，同时允许该模型再未见数据的情况下推广学习，从而使训练好的代理人具有可解释的行为。

Nov, 2020

通过从文本的迁移学习进行深度强化学习的人类指令遵循

通过使用预先训练的文本语言模型（BERT），我们提出了一种简单的方法来训练使用深度 RL 的指令跟踪代理，以适应自然人指令，从而在人类给出自然指令的情况下，实现从合成模板命令到指令的零 - shot 传输。

May, 2020

使用语言的交互式分层指导

使用语言命令实现上下层结构分离的强化学习方法，在长期规划任务中能够有效提高任务样本效率并保持可解释性和人工干预能力。

Oct, 2021

基于语言条件的结构化数据模仿学习

通过自然语言条件化的模拟学习方法，结合像素感知、自然语言理解和多任务连续控制的神经网络，可以在无需任务或语言标签的情况下，显著提高任务成果，同时将语言注释成本降低到总数据量的不到 1％。

May, 2020

互动学习和辅助学习

本文通过引入多智能体训练框架，提出交互式学习作为一种替代奖励或演示驱动学习的方法，并通过一系列实验展示了信息共享、信息查询和问答等交互学习行为的出现，最终发现该方法可以使得自主智能体在不需要显式演示或奖励函数的情况下，与人类合作执行任务并获得更好表现的能力。

Jun, 2019

面向人工智能协同的语言指导强化学习

在缺乏高质量人类行为数据的情况下，使用预训练的大型语言模型生成人类语言指令的先验策略并规范化强化学习目标可以帮助人工智能代理与人类协作，并在多智能体强化学习问题中实现人工智能代理与人类偏好一致的均衡解。案例中验证了该框架的有效性。

Apr, 2023