面向意图的层次强化学习

Jun, 2023

Int-HRL: Towards Intention-based Hierarchical Reinforcement Learning

Anna Penzkofer, Simon Schaefer, Florian Strohm, Mihai Bâce, Stefan Leutenegger...

TL;DR研究使用基于眼动的意图来自动生成子目标，从而提高深度强化学习代理的样本效率。该方法在 Atari 2600 游戏套件中的 Montezuma's Revenge 等长视程罕见奖励任务中得到了验证。

Abstract

While deep reinforcement learning (RL) agents outperform humans on an increasing number of tasks, training them requires data equivalent to decades of human gameplay. Recent hierarchical rl methods have increased

deep reinforcement learning hierarchical rl intention-based sub-goals montezuma's revenge eye gaze

发现论文，激发创造

自然语言子目标的层次强化学习

我们提出了一种新颖的方法，利用人类在 3D 实体环境中解决任务时使用的无约束自然语言数据，通过软约束目标空间，对一组长期任务进行层次强化学习，从而实现在现实或开放环境中实现目标导向行为的挑战。

Sep, 2023

数据效率的分层强化学习

本文研究如何构建通用且高效的层次强化学习算法，其中较低层的控制器通过自动学习和提出的目标来实现上级控制器的监督，并使用脱离策略的经验来提高效率。我们称此算法为 HIRO，并在模拟机器人上的实验中表现出高性能和高样本效率。

May, 2018

无模型分层强化学习中的表示学习

本文提出了一种基于最近的经验的无模型子目标发现方法和内在动机学习机制相结合的层次强化学习方法，可以应用于大规模的问题，实现了对环境模型的无需获取，用于解决强化学习面临的巨大状态空间和稀疏奖励反馈的问题。

Oct, 2018

层次强化学习中的特征控制作为内在动机

本文介绍了一种通用的子目标类别，应用于端到端层次强化学习系统中，可用于处理含有稀疏奖励的 Montezuma 的复仇等 Atari 游戏。该方法引入了一组时间扩展行动，或选项，以及对应的子目标。

May, 2017

可解释的多层子目标发现强化学习

提出一种新的强化学习（Reinforcement Learning）模型，具有可解释性且支持深层次子目标（subgoal hierarchies）的发现。该模型使用概率规则学习有关环境的信息，而（子）目标的策略则是它们的组合。学习无需奖励函数，只需提供主要目标，而目标的子目标被计算为状态的描述，如果先前达成这些描述，便可提高给定目标的可用策略的总效率。这些状态描述通过引入新的传感器谓词来加入代理的规则语言中，从而允许传感到重要的中间状态并相应地更新环境规则和策略。

Feb, 2022

基于像素的深度分层规划

通过在一个学习好的世界模型的潜在空间 planning，我们引入了一种名叫 Director 的实用方法，直接从像素学习分层行为，无需手动指定目标空间或子任务，并在具有稀疏奖励的任务中表现超越了探索方法。

Jun, 2022

层次化模仿与强化学习

论文提出了一种算法框架，称为层次性指导，旨在通过利用专家的反馈来学习序贯决策制定策略，以应对奖励稀疏和时间范围长等问题，该框架可以在不同的层次上组合不同的 imitation learning 和 reinforcement learning，从而大大减少专家工作量和探索成本，并对该框架的某些实例的标注成本进行了理论分析。

Mar, 2018

深度自适应多目的逆强化学习

本文提出一种深度逆强化学习框架，使用狄利克雷过程的工具，通过无标签专家示范学习先前未知的多个非线性奖励函数，同时考虑奖励函数的复杂性和数量。通过专家多重意图的条件最大熵原理，我们将其建模为潜在意图分布的混合，并提出两种算法来估计深度奖励网络的参数和专家意图的数量。

Jul, 2021

Granger 因果层次技能发现

介绍了一种新算法 Hierarchy of Interaction Skills（HIntS），利用 Granger causality 无监督地发现和使用交互探测器训练层次化的技能，解决了强化学习中样本效率低和泛化问题。在机器人推动障碍物任务中，可以将学习到的技能应用到其他相关任务中，并在效率和性能方面显著提高。

Jun, 2023

深度强化学习从人类偏好中学习

本文研究了使用非专家人类偏好来定义复杂目标的强化学习系统的方法，并且证明此方法可实现许多复杂的强化学习任务，包括 Atari 游戏和模拟机器人，同时也大幅降低了人类监督成本，以及展示了本方法的灵活性，并可成功使用较短时间完成复杂的新颖行为的训练，同时也采用了前人的人类反馈信息和环境。

Jun, 2017