通过建模奖励来学习理解目标规格

Jun, 2018

通过建模奖励来学习理解目标规格

Learning to Understand Goal Specifications by Modelling Reward

Dzmitry Bahdanau, Felix Hill, Jan Leike, Edward Hughes, Arian Hosseini...

TL;DR提出了一种基于奖励模型的框架，它使得机器学习代理能学习到语言指令，并通过这些指令执行任务，而不需要通过修改环境奖励函数来实现。这种方法将任务的语义表示和执行分离，在简单的网格世界中，使代理能够学习一系列涉及块的交互和对空间关系的理解的指令，且无需新的专家数据就可以适应环境的变化。

Abstract

Recent work has shown that deep reinforcement-learning agents can learn to follow language-like instructions from infrequent environment rewards. However, this places on environment designers the onus of designin

deep reinforcement-learning language-like instructions reward models instruction-conditional rl agents spatial relations

发现论文，激发创造

从语言到目标：基于视觉的逆强化学习指令跟随

本研究探讨了使用反强化学习将语言命令作为奖励函数的问题，并提出了一种将语言命令作为深度神经网络表示的奖励函数的学习算法，即语言条件奖励学习（LC-RL）。实验结果表明，与直接学习语言条件策略相比，使用 LC-RL 学习的奖励可以更好地在新任务和环境中进行迁移。

Feb, 2019

强化学习中使用自然语言进行奖励塑形

使用自然语言指令进行奖励塑形，在复杂的 Atari 游戏中，比标准强化学习算法成功完成任务的次数平均提高了 60%，并且可以无缝集成到任何标准强化学习算法中。

Mar, 2019

使用语言模型进行奖励设计

本文探讨以自然语言接口为代理奖励函数来简化奖励设计，在强化学习框架下利用大型语言模型对用户目标进行培训，实现智能体与用户目标的对齐，并在 Ultimatum 游戏、矩阵游戏和 DealOrNoDeal 谈判任务中优于通过监督式学习学习的奖励函数训练的 RL 智能体。

Feb, 2023

通过从文本的迁移学习进行深度强化学习的人类指令遵循

通过使用预先训练的文本语言模型（BERT），我们提出了一种简单的方法来训练使用深度 RL 的指令跟踪代理，以适应自然人指令，从而在人类给出自然指令的情况下，实现从合成模板命令到指令的零 - shot 传输。

May, 2020

从人类偏好中微调语言模型

本文介绍了如何利用奖励学习将强化学习应用于自然语言任务中，旨在建立适用于现实世界任务的奖励模型。我们将奖励学习应用于四个自然语言任务（文本连续生成、摘要），取得了不错的结果，但模型可能会利用人类评估者的简单启发式规则。

Sep, 2019

精细调整包容性语言模型的代理 - 环境接口破碎

本文提出了一种新的方法，将预训练的语言模型同时用作策略、奖励函数和转移函数，从而实现了奖励学习和语言模型微调的联合和直接处理，并通过处理认知不确定性来实现高效探索。

May, 2023

一种基于叙事的奖励塑造方法，使用基于语境的自然语言指令

通过自然语言引导，我们对深度强化学习技术进行了改进，实现了对 StarCraft II 等任务的有效训练，并与传统的奖励塑形方法相比，取得了更好的性能表现。

Oct, 2019

通过想象和达到视觉目标来跟随指示

本文提出了一种基于空间推理和 RL 框架的学习方法，通过想象视觉目标并选择适当的行动来完成任务，使用单一外部奖励信号和内部动机来学习，该方法在两个仿真 3D 环境中，进行了验证，并在处理物体排列任务时，优于两个扁平化架构和一个分层架构。

Jan, 2020

无需奖励工程的端到端机器人强化学习

本论文提出一种通过少量成功案例、以及主动请求用户进行标注来使机器人无需人工指定奖励函数以学习技能的方法，有效地避免了人工设计感知流水线或在环境中添加附加传感器等不便之处。我们通过实验验证了该方法的可行性，并证明该方法可使机器人从图像中直接学习知识，且仅需 1-4 个小时与实际世界进行交互。

Apr, 2019

具备自然语言目标的逆强化学习

本文提出了一种新颖的对抗式逆强化学习算法，使用条件化语言政策和奖励函数，以及使用变分目标生成器提高学习策略和奖励函数的泛化性，从而使自然语言变得可用于指导智能体任务的目标，获得了非常好的性能表现。

Aug, 2020