自然语言子目标的层次强化学习

Sep, 2023

Hierarchical reinforcement learning with natural language subgoals

Arun Ahuja, Kavya Kopparapu, Rob Fergus, Ishita Dasgupta

TL;DR我们提出了一种新颖的方法，利用人类在 3D 实体环境中解决任务时使用的无约束自然语言数据，通过软约束目标空间，对一组长期任务进行层次强化学习，从而实现在现实或开放环境中实现目标导向行为的挑战。

Abstract

hierarchical reinforcement learning has been a compelling approach for achieving goal directed behavior over long sequences of actions. However, it has been challenging to implement in realistic or open-ended environments. A main challenge has been to find the right space of

hierarchical reinforcement learning goal-directed behavior sub-goals 3d embodied environment natural language

发现论文，激发创造

使用语言的交互式分层指导

使用语言命令实现上下层结构分离的强化学习方法，在长期规划任务中能够有效提高任务样本效率并保持可解释性和人工干预能力。

Oct, 2021

面向意图的层次强化学习

研究使用基于眼动的意图来自动生成子目标，从而提高深度强化学习代理的样本效率。该方法在 Atari 2600 游戏套件中的 Montezuma's Revenge 等长视程罕见奖励任务中得到了验证。

Jun, 2023

具备自然语言目标的逆强化学习

本文提出了一种新颖的对抗式逆强化学习算法，使用条件化语言政策和奖励函数，以及使用变分目标生成器提高学习策略和奖励函数的泛化性，从而使自然语言变得可用于指导智能体任务的目标，获得了非常好的性能表现。

Aug, 2020

无模型分层强化学习中的表示学习

本文提出了一种基于最近的经验的无模型子目标发现方法和内在动机学习机制相结合的层次强化学习方法，可以应用于大规模的问题，实现了对环境模型的无需获取，用于解决强化学习面临的巨大状态空间和稀疏奖励反馈的问题。

Oct, 2018

通过可达性分析在层次化强化学习中的目标空间抽象

通过自动发现类似任务中具有相似角色的环境状态集合的新兴表示法，我们提出了一种基于发展机制的子目标发现方法，该方法能够逐渐学习这种表示法，并且通过导航任务的评估表明学习到的表示法是可解释的，并且可以实现数据效率。

Sep, 2023

通过分层强化学习在基于文本的游戏中实现泛化

本文介绍了一种基于知识图谱的 RL 代理的层次化框架，通过在高层次执行元策略将整个游戏分解为一组由文本目标指定的子任务，并通过知识图谱选择其中一个，然后在低层次执行子策略进行目标条件强化学习，实验结果表明，所提出的方法具有较好的泛化性能。

Sep, 2021

可解释的多层子目标发现强化学习

提出一种新的强化学习（Reinforcement Learning）模型，具有可解释性且支持深层次子目标（subgoal hierarchies）的发现。该模型使用概率规则学习有关环境的信息，而（子）目标的策略则是它们的组合。学习无需奖励函数，只需提供主要目标，而目标的子目标被计算为状态的描述，如果先前达成这些描述，便可提高给定目标的可用策略的总效率。这些状态描述通过引入新的传感器谓词来加入代理的规则语言中，从而允许传感到重要的中间状态并相应地更新环境规则和策略。

Feb, 2022

向人类请教：利用人类指令提升强化学习的泛化能力

本文提出通过使用自然语言指令和行动轨迹演示来自动分解分层任务，以解决在稀疏奖励的强化学习设置中的复杂多任务问题，并证明人类演示有助于解决最复杂的任务，同时允许该模型再未见数据的情况下推广学习，从而使训练好的代理人具有可解释的行为。

Nov, 2020

层次强化学习中生成受邻近约束的子目标

本文研究了基于目标的层次强化学习（HRL）中高层次行动空间（即目标空间）的训练效率问题，提出了使用邻接约束把高层次动作空间限制为当前状态的 $k$ 步领域，证明该约束在确定性 MDPs 下保留了最优层次策略，实现方法是训练一个区分相邻和非相邻子目标的邻接网络，在实验中验证了该约束在离散和连续控制任务中显著提高了 HRL 方法的性能。

Jun, 2020

层次强化学习中的目标空间抽象通过基于集合的可达性分析

我们提出了一种通过紧密的表示来发现目标表示的发展机制，该机制可以将具有类似任务角色的环境状态集合抽象（即，分组在一起）。我们引入了一种 Feudal HRL 算法，该算法同时学习目标表示和分层策略。该算法使用神经网络的符号可达性分析来近似状态集合之间的转变关系并细化目标表示。我们在复杂的导航任务上评估了我们的方法，结果表明所学到的表示是可解释的、可传递的，并且可以实现高效的学习。

Sep, 2023