Option-Critic 架构

AAAISep, 2016

The Option-Critic Architecture

Pierre-Luc Bacon, Jean Harb, Doina Precup

TL;DR本文介绍了一种基于 options 框架下的 policy gradient theorems，提出了一种新的 option-critic 架构，能够同时学习 options 的内部策略和终止条件，展现了该框架在离散和连续环境中的灵活性和效率。

Abstract

temporal abstraction is key to scaling up learning and planning in reinforcement learning. While planning with temporally extended actions is well understood, creating such abstractions autonomously from data has

temporal abstraction reinforcement learning options policy gradient theorems option-critic architecture

发现论文，激发创造

学习抽象选项

通过构建一个层次化的选项体系，我们扩展了 Bacon 等人 2017 年的研究成果，提出了一种新的深度选项体系架构，并在离散和连续环境中进行了实证研究。

Oct, 2018

注意力选项评论家

本文引入基于注意力机制的扩展方法到 option-critic 架构中，以实现带状态抽象的多样性 options 学习，有效解决了 option-critic 中出现的选项主导和频繁切换的问题，并在转移学习任务中展示出更高的效率，可解释性和重复利用性。

Jan, 2022

连续动作任务的端到端学习选项

使用选项框架及决策代价对连续任务中的动作进行学习，并利用邻近策略优化而不是基础策略梯度的方法在 Mujoco 领域取得了有前途的结果，进而引出了连续任务中何时使用特定选项的探讨。

Nov, 2017

Safe Option-Critic: 在 Option-Critic 架构中学习安全性

本文提出了一种优化目标，通过鼓励智能体访问行为一致性较高的状态来学习安全选项，从而在标准期望回报和最小化回报的模型不确定性之间找到了平衡，并借助策略梯度算法优化了受约束的目标函数。在实验中，该方法取得了较好的表现，降低了回报的方差，并在奖励结构具有内在变异性的环境中提升了性能。

Jul, 2018

深度选项学习中权重共享的作用

本篇论文提出了一种针对 option-critic 架构中参数独立性的扩展，可以显著提高使用长期选项训练游戏的稳定性和效率。

Dec, 2019

终止判定器

该研究论文讨论了自主发现强化学习代理的行为抽象或选项的问题，提出了一种算法以选项的压缩性能作为终止条件，并利用经典选项框架学习选项转换模型作为终止条件的 “评论家”，通过这种方式得出的选项具有实际意义，对学习和规划都有用。

Feb, 2019

层次平均回报策略梯度算法

本文扩展了分层 option-critic 策略梯度定理，旨在通过使用基于常微分方程的方法分析，优化代理的策略，最大限度地获得马尔可夫链的最终奖励，并在稀疏奖励的网格世界环境中表明了学习 option 的竞争优势。

Nov, 2019

DAC: 双重演员 - 评论家体系结构用于学习选项

研究了一种基于 MDPs 的新型选项框架，应用 Actor-Critic 算法学习内部选项策略，终止条件和选项的主策略，并在具有挑战性的机器人仿真任务中展示了 DAC 对于传输学习的优越性能。

Apr, 2019

深层选项学习的特定于上下文的表示抽象

本文研究通过 Context-Specific Representation Abstraction for Deep Option Learning（CRADOL）框架学习因子化信念状态表示，以便于每个选项只学习状态空间的子集，从而减少策略空间搜索的规模，以提高分层强化学习（hierarchical reinforcement learning）中选项和行动的学习效率

Sep, 2021

兴趣选项：基于兴趣函数的时间抽象

本文提供了一种通用的服务集开放框架，用于学习行为控制的初始集，利用定义在 Option 之上的利益函数，推导了一个基于梯度的利益函数学习算法，从而导致了一种新的利益 - 选项批评家体系结构，支持学习可解释且可重用的时间抽象。

Jan, 2020