通过从文本的迁移学习进行深度强化学习的人类指令遵循

May, 2020

通过从文本的迁移学习进行深度强化学习的人类指令遵循

Human Instruction-Following with Deep Reinforcement Learning via Transfer-Learning from Text

Felix Hill, Sona Mokra, Nathaniel Wong, Tim Harley

TL;DR通过使用预先训练的文本语言模型（BERT），我们提出了一种简单的方法来训练使用深度 RL 的指令跟踪代理，以适应自然人指令，从而在人类给出自然指令的情况下，实现从合成模板命令到指令的零 - shot 传输。

Abstract

Recent work has described neural-network-based agents that are trained with reinforcement learning (RL) to execute language-like commands in simulated worlds, as a step towards an intelligent agent or robot that can be instructed by human users. However, the optimisation of multi-goal

neural network-based agents reinforcement learning instruction-following deep rl text-based language model

发现论文，激发创造

面向人工智能协同的语言指导强化学习

在缺乏高质量人类行为数据的情况下，使用预训练的大型语言模型生成人类语言指令的先验策略并规范化强化学习目标可以帮助人工智能代理与人类协作，并在多智能体强化学习问题中实现人工智能代理与人类偏好一致的均衡解。案例中验证了该框架的有效性。

Apr, 2023

文本游戏中的指令跟随学习

研究文本游戏在强化学习环境下的指令正确率，设计使用 Linear Temporal Logic 结构化语言支持时间上下文语义的指令，通过文字游戏的实验验证该结构化语言指令的有效性和优越性。

Nov, 2022

FollowNet：深度强化学习下基于自然语言指令的机器人导航

通过不同的神经网络架构，自然语言指令、视觉和深度输入被映射为机器行动的原语，RL 算法在稀疏奖励下学习状态表示、注意力函数和控制策略。在模拟家庭环境下的自然语言导航中，模型展示出了 30% 的改进和 52% 的成功率。

May, 2018

向人类请教：利用人类指令提升强化学习的泛化能力

本文提出通过使用自然语言指令和行动轨迹演示来自动分解分层任务，以解决在稀疏奖励的强化学习设置中的复杂多任务问题，并证明人类演示有助于解决最复杂的任务，同时允许该模型再未见数据的情况下推广学习，从而使训练好的代理人具有可解释的行为。

Nov, 2020

通过建模奖励来学习理解目标规格

提出了一种基于奖励模型的框架，它使得机器学习代理能学习到语言指令，并通过这些指令执行任务，而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离，在简单的网格世界中，使代理能够学习一系列涉及块的交互和对空间关系的理解的指令，且无需新的专家数据就可以适应环境的变化。

Jun, 2018

自主驾驶汽车中基于模型增强学习的语音指令整合

本文提出了一个新的方法，支持自然语言语音指令来指导深度强化学习算法在训练自动驾驶汽车时使用。作者在本文中提出对于人类专家缺乏自然沟通渠道和采样和时间效率的限制等问题，探究了人类与代理智能的学习交互方式的新方法，利用自然语言语音指令（NLI）来进行模型设计的深度强化学习，结合 CARLA 模拟器评估了所提出的方法，表明 NLI 可以帮助缓解训练过程，显著提高代理智能的学习速度。

Jun, 2022

利用神经机器翻译实现反强化学习导航指令生成

该研究提出了一种导航指南模型，使机器人能够生成自然语言指令，帮助人们在事先未知的环境中进行导航，该模型使用人类演示数据通过反向强化学习训练决策策略，并通过神经序列到序列模型从自然语料库中生成自由形式的语句，实验测评表明，在与人类参考指令进行比较时，该方法获得了 72.18% 的 BLEU 分数，并且缩小了人类与机器人交互时的差距。

Oct, 2016

深度强化学习中的迁移语言基础

本文介绍了一种利用自然语言驱动强化学习传递的方法，并使用模型化强化学习方法和实体描述等技术，在不同环境下实现了更好的性能表现。

Aug, 2017

通过元学习用语言指导政策

本文提出了一种交互式的任务规范问题形式，通过自然语言指令和一系列语言修正来引导自主代理获得新技能，实现快速获取新技能，显著优于直接非交互式指令跟随。

Nov, 2018

走向基础模型统一的智能体

通过在强化学习代理中嵌入和利用语言模型和视觉语言模型的能力，我们设计了一个框架，将语言作为核心推理工具，能够处理一系列强化学习挑战，如有效的探索、重用经验数据、调度技能以及从观察中学习，从而改进了在模拟的机器人操作环境中的性能，并展示了如何利用学到的技能解决新任务或模仿人类专家视频。

Jul, 2023