MENTOR：利用人类反馈和动态距离约束指导分层强化学习

Feb, 2024

MENTOR：利用人类反馈和动态距离约束指导分层强化学习

MENTOR: Guiding Hierarchical Reinforcement Learning with Human Feedback and Dynamic Distance Constraint

Xinglin Zhou, Yifu Yuan, Shaofu Yang, Jianye Hao

TL;DR通过引入人类反馈和动态距离约束，我们提出了一个通用的分层强化学习框架（MENTOR），作为 “导师” 参与高层策略学习以寻找更好的子目标，并设计了对应于探索 - 利用分离的双重策略以稳定训练。通过动态调整可选子目标的空间，MENTOR 可以生成与低层策略学习过程相匹配的子目标，从容易到困难。大量实验表明，使用少量人类反馈的 MENTOR 在复杂的任务中显著提高了稀疏奖励的效果。

Abstract

hierarchical reinforcement learning (HRL) provides a promising solution for complex tasks with sparse rewards of intelligent agents, which uses a hierarchical framework that divides tasks into →

hierarchical reinforcement learning subgoals human feedback dynamic distance constraints complex tasks

发现论文，激发创造

自然语言子目标的层次强化学习

我们提出了一种新颖的方法，利用人类在 3D 实体环境中解决任务时使用的无约束自然语言数据，通过软约束目标空间，对一组长期任务进行层次强化学习，从而实现在现实或开放环境中实现目标导向行为的挑战。

Sep, 2023

层次强化学习中生成受邻近约束的子目标

本文研究了基于目标的层次强化学习（HRL）中高层次行动空间（即目标空间）的训练效率问题，提出了使用邻接约束把高层次动作空间限制为当前状态的 $k$ 步领域，证明该约束在确定性 MDPs 下保留了最优层次策略，实现方法是训练一个区分相邻和非相邻子目标的邻接网络，在实验中验证了该约束在离散和连续控制任务中显著提高了 HRL 方法的性能。

Jun, 2020

数据效率的分层强化学习

本文研究如何构建通用且高效的层次强化学习算法，其中较低层的控制器通过自动学习和提出的目标来实现上级控制器的监督，并使用脱离策略的经验来提高效率。我们称此算法为 HIRO，并在模拟机器人上的实验中表现出高性能和高样本效率。

May, 2018

面向意图的层次强化学习

研究使用基于眼动的意图来自动生成子目标，从而提高深度强化学习代理的样本效率。该方法在 Atari 2600 游戏套件中的 Montezuma's Revenge 等长视程罕见奖励任务中得到了验证。

Jun, 2023

无模型分层强化学习中的表示学习

本文提出了一种基于最近的经验的无模型子目标发现方法和内在动机学习机制相结合的层次强化学习方法，可以应用于大规模的问题，实现了对环境模型的无需获取，用于解决强化学习面临的巨大状态空间和稀疏奖励反馈的问题。

Oct, 2018

目标的脚印：从人 - 环交互反馈中获得目标条件的探索

通过非专业用户提供的低质量、非同步和嘈杂的反馈，人类引导探索（HuGE）技术在强化学习中引导探索，无需精心设计奖励规范。这种方法通过分叉人类反馈和策略学习来实现：人类反馈引导探索，而来自探索数据的自我监督学习产生无偏的策略。HuGE 能够借助非专业用户的众包反馈在模拟环境中学习各种具有挑战性的多阶段机器人导航和操纵任务。此外，这个方法还可以通过来自人类监督员的偶尔异步反馈来直接在真实世界中学习。

Jul, 2023

利用人类指导提升深度强化学习任务

本文综述了五个最近的学习框架，这些框架主要依赖人类指导，而不是传统的一步一步的动作演示，评估了每个框架的动机、假设和实现，并讨论了可能的未来研究方向。

Sep, 2019

MHER: 基于模型的事后经验回放

通过利用环境动态生成虚拟实现目标的模型相关再标记方法，本文提出了模型 (MHER)。模型同时执行强化学习和监督学习来实现高效的政策改进，通过实验在多个基点任务和模拟机器人环境中显示出比以前的 model-free 和 model-based 多目标方法具有明显更高的样本效率。

Jul, 2021

基于因果推断的强化学习层次化结构发现

本论文提出了 CDHRL 框架，通过因果驱动探索而非随机驱动探索来构建高质量的分层结构，以提高分层强化学习的探索效率。实验表明，在 2D-Minecraft 和 Eden 两种复杂环境中，CDHRL 显著提高了探索效率。

Oct, 2022

层次化模仿与强化学习

论文提出了一种算法框架，称为层次性指导，旨在通过利用专家的反馈来学习序贯决策制定策略，以应对奖励稀疏和时间范围长等问题，该框架可以在不同的层次上组合不同的 imitation learning 和 reinforcement learning，从而大大减少专家工作量和探索成本，并对该框架的某些实例的标注成本进行了理论分析。

Mar, 2018