可解释的多层子目标发现强化学习

Feb, 2022

可解释的多层子目标发现强化学习

Interpretable Reinforcement Learning with Multilevel Subgoal Discovery

Alexander Demin, Denis Ponomaryov

TL;DR提出一种新的强化学习（Reinforcement Learning）模型，具有可解释性且支持深层次子目标（subgoal hierarchies）的发现。该模型使用概率规则学习有关环境的信息，而（子）目标的策略则是它们的组合。学习无需奖励函数，只需提供主要目标，而目标的子目标被计算为状态的描述，如果先前达成这些描述，便可提高给定目标的可用策略的总效率。这些状态描述通过引入新的传感器谓词来加入代理的规则语言中，从而允许传感到重要的中间状态并相应地更新环境规则和策略。

Abstract

We propose a novel reinforcement learning model for discrete environments, which is inherently interpretable and supports the discovery of deep subgoal hierarchies. In the model, an agent learns information about environment in the form of →

reinforcement learning interpretable model subgoal hierarchies probabilistic rules sensor predicates

发现论文，激发创造

无模型分层强化学习中的表示学习

本文提出了一种基于最近的经验的无模型子目标发现方法和内在动机学习机制相结合的层次强化学习方法，可以应用于大规模的问题，实现了对环境模型的无需获取，用于解决强化学习面临的巨大状态空间和稀疏奖励反馈的问题。

Oct, 2018

分层对话策略学习的子目标发现

提出了一种分而治之的方法，利用 Subgoal Discovery Network 将复杂目标定向任务分解为一组较简单的子目标，并使用这些子目标通过分层强化学习来学习多级策略，建立了对话代理程序，已应用于旅行计划中，其学习到的子目标通常易于被人理解。

Apr, 2018

自然语言子目标的层次强化学习

我们提出了一种新颖的方法，利用人类在 3D 实体环境中解决任务时使用的无约束自然语言数据，通过软约束目标空间，对一组长期任务进行层次强化学习，从而实现在现实或开放环境中实现目标导向行为的挑战。

Sep, 2023

概率子目标表示的分层强化学习

高层策略给出低层策略达到的子目标，在这篇论文中，我们提出了一种基于高斯过程的概率子目标表示方法，通过可学习的核函数利用状态空间的长程相关性来学习先验规划步骤中的长程子目标信息，从而适应不确定性。同时，我们还提出了一种新的学习目标，以实现概率子目标表示和策略的同时学习。实验结果表明，我们的方法在标准基准测试和具有随机因素和多样化奖励条件的环境中优于最先进的基准，并且我们的模型在不同任务之间转移低层策略具有良好的性能。

Jun, 2024

通过想象的子目标进行目标导向强化学习

本研究提出了一种将想象中的子目标融入策略学习中的方法，以促进解决需要更复杂的任务，并在机器人导航和操作任务中进行的实验表明其比现有方法表现更好。

Jul, 2021

通过可达性分析在层次化强化学习中的目标空间抽象

通过自动发现类似任务中具有相似角色的环境状态集合的新兴表示法，我们提出了一种基于发展机制的子目标发现方法，该方法能够逐渐学习这种表示法，并且通过导航任务的评估表明学习到的表示法是可解释的，并且可以实现数据效率。

Sep, 2023

面向意图的层次强化学习

研究使用基于眼动的意图来自动生成子目标，从而提高深度强化学习代理的样本效率。该方法在 Atari 2600 游戏套件中的 Montezuma's Revenge 等长视程罕见奖励任务中得到了验证。

Jun, 2023

Sub-Goal Trees -- 基于目标的强化学习框架

提出了一种基于动态规划方程的强化学习框架，能够自然地解决多目标查询问题，并使用子目标树结构构建轨迹，从而扩展策略梯度法来预测子目标，应用于神经运动规划领域，与标准强化学习相比，取得了显著的改进。

Feb, 2020

多任务强化学习中的层次和可解释技能获取

本文提出了一种用于有效的多任务强化学习的新框架，该框架可以训练代理人使用分层策略，决定何时使用先前学习的策略和何时学习新技能。该方法通过给代理人提供随机时间语法来帮助代理人学习分层策略中必要的复杂时间依赖关系，并在 Minecraft 游戏中进行了验证。

Dec, 2017

基于向量量化模型的分层仿真学习

本文提出使用强化学习来识别专家轨迹中的子目标，从而构建一个向量量化生成模型，以进行子目标级别的规划，并在复杂的长期决策问题上表现出色，优于现有技术。

Jan, 2023