向人类请教：利用人类指令提升强化学习的泛化能力

ICLRNov, 2020

向人类请教：利用人类指令提升强化学习的泛化能力

Ask Your Humans: Using Human Instructions to Improve Generalization in Reinforcement Learning

Valerie Chen, Abhinav Gupta, Kenneth Marino

TL;DR本文提出通过使用自然语言指令和行动轨迹演示来自动分解分层任务，以解决在稀疏奖励的强化学习设置中的复杂多任务问题，并证明人类演示有助于解决最复杂的任务，同时允许该模型再未见数据的情况下推广学习，从而使训练好的代理人具有可解释的行为。

Abstract

Complex, multi-task problems have proven to be difficult to solve efficiently in a sparse-reward reinforcement learning setting. In order to be sample efficient, multi-task learning requires reuse and sharing of

sparse-reward reinforcement learning multi-task learning natural language instructions task generalization interpretable behaviors

发现论文，激发创造

使用语言的交互式分层指导

使用语言命令实现上下层结构分离的强化学习方法，在长期规划任务中能够有效提高任务样本效率并保持可解释性和人工干预能力。

Oct, 2021

多任务强化学习中的层次和可解释技能获取

本文提出了一种用于有效的多任务强化学习的新框架，该框架可以训练代理人使用分层策略，决定何时使用先前学习的策略和何时学习新技能。该方法通过给代理人提供随机时间语法来帮助代理人学习分层策略中必要的复杂时间依赖关系，并在 Minecraft 游戏中进行了验证。

Dec, 2017

通过从文本的迁移学习进行深度强化学习的人类指令遵循

通过使用预先训练的文本语言模型（BERT），我们提出了一种简单的方法来训练使用深度 RL 的指令跟踪代理，以适应自然人指令，从而在人类给出自然指令的情况下，实现从合成模板命令到指令的零 - shot 传输。

May, 2020

通过自然语言众包指导实现跨任务的推广

通过理解人类可读的指令来学习新任务的挑战一直是人工智能领域的难题，本文基于自然指令数据集通过使用生成式预训练语言模型对任务特定指令进行编码和输出生成，研究横向任务泛化并发现模型在使用指令时对于未见过的任务泛化更好，但与认为上限还存在显著改进空间。

Apr, 2021

使用分层潜在语言进行一次性示范学习

使用基于描述性语言的学习方法，研究设计了一个环境来测试智能体的泛化技能，并通过多个测试评估方案和测试集发现，在随机任务拆分的情况下，文本推理的智能体更适合应对这一挑战。

Mar, 2022

通过元学习用语言指导政策

本文提出了一种交互式的任务规范问题形式，通过自然语言指令和一系列语言修正来引导自主代理获得新技能，实现快速获取新技能，显著优于直接非交互式指令跟随。

Nov, 2018

利用人类指导提升深度强化学习任务

本文综述了五个最近的学习框架，这些框架主要依赖人类指导，而不是传统的一步一步的动作演示，评估了每个框架的动机、假设和实现，并讨论了可能的未来研究方向。

Sep, 2019

通过分层强化学习在基于文本的游戏中实现泛化

本文介绍了一种基于知识图谱的 RL 代理的层次化框架，通过在高层次执行元策略将整个游戏分解为一组由文本目标指定的子任务，并通过知识图谱选择其中一个，然后在低层次执行子策略进行目标条件强化学习，实验结果表明，所提出的方法具有较好的泛化性能。

Sep, 2021

自然语言子目标的层次强化学习

我们提出了一种新颖的方法，利用人类在 3D 实体环境中解决任务时使用的无约束自然语言数据，通过软约束目标空间，对一组长期任务进行层次强化学习，从而实现在现实或开放环境中实现目标导向行为的挑战。

Sep, 2023

通过生成和遵循自然语言指令进行分层决策

使用自然语言隐式指令作为复杂动作的表达和组合，而不是直接选择微操作，本文基于 76,000 个自然语言指令和操作的数据集在实时策略游戏环境中训练模型，结果表明使用自然语言作为潜变量的模型在动作表达中的有效性显著优于直接模仿人类动作的模型，并且语言的组合结构对其有效性具有关键作用。同时提供了代码、模型和数据。

Jun, 2019