强化学习中子目标自动机的归纳与利用

Sep, 2020

强化学习中子目标自动机的归纳与利用

Induction and Exploitation of Subgoal Automata for Reinforcement Learning

Daniel Furelos-Blanco, Mark Law, Anders Jonsson, Krysia Broda, Alessandra Russo

TL;DRISA 是一种学习和利用强化学习中子目标的方法，通过交错强化学习和感知高级事件的子目标自动机的归纳来学习如何到达任务目标状态，该方法使用一种现有的逻辑编程系统，使这些子目标表示为基于常命题逻辑的逻辑公式，并保证了最少状态的自动机归纳和对称性破缺机制。在多个问题上的实验表明，该方法可用于学习成功的策略，并达到与人工预设子目标相当的平均奖励水平。

Abstract

In this paper we present ISA, an approach for learning and exploiting subgoals in episodic reinforcement learning (RL) tasks. ISA interleaves reinforcement learning with the induction of a subgoal automaton, an a

episodic reinforcement learning subgoal automaton inductive logic programming symmetry breaking policies

发现论文，激发创造

为强化学习引入子目标自动机

本文提出 ISA，使用归纳逻辑程序设计帮助学习强化学习中的子目标，建立了可自我更新的自动机模型。实验证明，通过使用学习到的自动机进一步增强奖励调整和多任务迁移学习，ISA 能够在多种格局提供同样优秀的表现且对可观察事件数量的影响进行了分析。

Nov, 2019

面向符号自动机编码目标的无模型强化学习

本文提出使用符号自动机的形式规范，来代替马尔可夫奖励，并定义了使用潜在奖励的策略，来提高强化学习的收敛性。

Feb, 2022

使用隐马尔可夫模型的自动机学习任务自动化增强学习

该论文提出了一种从代理环境经验中学习非马尔可夫任务规范的新方法，可以将任务拆分为其构成子任务，提高了 RL 代理后续合成最优策略的速率，并提供了一个可解释的编码高级环境和任务特征的方式。

Aug, 2022

Sub-Goal Trees -- 基于目标的强化学习框架

提出了一种基于动态规划方程的强化学习框架，能够自然地解决多目标查询问题，并使用子目标树结构构建轨迹，从而扩展策略梯度法来预测子目标，应用于神经运动规划领域，与标准强化学习相比，取得了显著的改进。

Feb, 2020

可解释的多层子目标发现强化学习

提出一种新的强化学习（Reinforcement Learning）模型，具有可解释性且支持深层次子目标（subgoal hierarchies）的发现。该模型使用概率规则学习有关环境的信息，而（子）目标的策略则是它们的组合。学习无需奖励函数，只需提供主要目标，而目标的子目标被计算为状态的描述，如果先前达成这些描述，便可提高给定目标的可用策略的总效率。这些状态描述通过引入新的传感器谓词来加入代理的规则语言中，从而允许传感到重要的中间状态并相应地更新环境规则和策略。

Feb, 2022

自主推断子任务依赖关系的元强化学习

本文提出了一种新颖的少样本强化学习问题，其通过任务的子任务图描述一组子任务及其依赖关系，我们开发了一种元学习器，即消息传递子任务图推理器（MSGI），该学习器通过与环境交互推断任务的潜在参数，并采用上限置信界中得到启发的内在奖励以促进有效探索，实验结果表明该方法能够准确推断潜在任务参数，并比现有的元强化学习和分层强化学习方法更有效地适应。

Jan, 2020

无模型分层强化学习中的表示学习

本文提出了一种基于最近的经验的无模型子目标发现方法和内在动机学习机制相结合的层次强化学习方法，可以应用于大规模的问题，实现了对环境模型的无需获取，用于解决强化学习面临的巨大状态空间和稀疏奖励反馈的问题。

Oct, 2018

通过自动学习组合子任务实现高效样本强化学习

自动结构化奖励函数以提高样本利用率，并在稀疏奖励环境中显著优于现有技术基线。

Jan, 2024

通过可达性分析在层次化强化学习中的目标空间抽象

通过自动发现类似任务中具有相似角色的环境状态集合的新兴表示法，我们提出了一种基于发展机制的子目标发现方法，该方法能够逐渐学习这种表示法，并且通过导航任务的评估表明学习到的表示法是可解释的，并且可以实现数据效率。

Sep, 2023

利用学习的策略基础进行规划以最优解决复杂任务

用继任特征学习策略基础，以解决具有非马尔可夫奖励规范的多个任务的广义问题，在有限状态自动机中描述的任务中，使用这些（子）策略的组合可以在无需额外学习的情况下生成最优解，与通过规划组合（子）策略的其他方法相比，本方法能达到全局最优性，即使在随机环境中也是如此。

Mar, 2024