注意力选项评论家

Jan, 2022

Attention Option-Critic

Raviteja Chunduru, Doina Precup

TL;DR本文引入基于注意力机制的扩展方法到 option-critic 架构中，以实现带状态抽象的多样性 options 学习，有效解决了 option-critic 中出现的选项主导和频繁切换的问题，并在转移学习任务中展示出更高的效率，可解释性和重复利用性。

Abstract

temporal abstraction in reinforcement learning is the ability of an agent to learn and use high-level behaviors, called options. The optio

temporal abstraction reinforcement learning options attention-based extension transfer learning

发现论文，激发创造

Option-Critic 架构

本文介绍了一种基于 options 框架下的 policy gradient theorems，提出了一种新的 option-critic 架构，能够同时学习 options 的内部策略和终止条件，展现了该框架在离散和连续环境中的灵活性和效率。

Sep, 2016

学习抽象选项

通过构建一个层次化的选项体系，我们扩展了 Bacon 等人 2017 年的研究成果，提出了一种新的深度选项体系架构，并在离散和连续环境中进行了实证研究。

Oct, 2018

Safe Option-Critic: 在 Option-Critic 架构中学习安全性

本文提出了一种优化目标，通过鼓励智能体访问行为一致性较高的状态来学习安全选项，从而在标准期望回报和最小化回报的模型不确定性之间找到了平衡，并借助策略梯度算法优化了受约束的目标函数。在实验中，该方法取得了较好的表现，降低了回报的方差，并在奖励结构具有内在变异性的环境中提升了性能。

Jul, 2018

多智能体强化学习的演员 - 注意力 - 评论家模型

提出了一个基于 Actor-Critic 算法的多智能体强化学习算法，解决了多智能体场景下的信息筛选问题，可应用于大多数多智能体学习问题。

Oct, 2018

层次平均回报策略梯度算法

本文扩展了分层 option-critic 策略梯度定理，旨在通过使用基于常微分方程的方法分析，优化代理的策略，最大限度地获得马尔可夫链的最终奖励，并在稀疏奖励的网格世界环境中表明了学习 option 的竞争优势。

Nov, 2019

兴趣选项：基于兴趣函数的时间抽象

本文提供了一种通用的服务集开放框架，用于学习行为控制的初始集，利用定义在 Option 之上的利益函数，推导了一个基于梯度的利益函数学习算法，从而导致了一种新的利益 - 选项批评家体系结构，支持学习可解释且可重用的时间抽象。

Jan, 2020

终止判定器

该研究论文讨论了自主发现强化学习代理的行为抽象或选项的问题，提出了一种算法以选项的压缩性能作为终止条件，并利用经典选项框架学习选项转换模型作为终止条件的 “评论家”，通过这种方式得出的选项具有实际意义，对学习和规划都有用。

Feb, 2019

深层选项学习的特定于上下文的表示抽象

本文研究通过 Context-Specific Representation Abstraction for Deep Option Learning（CRADOL）框架学习因子化信念状态表示，以便于每个选项只学习状态空间的子集，从而减少策略空间搜索的规模，以提高分层强化学习（hierarchical reinforcement learning）中选项和行动的学习效率

Sep, 2021

DAC: 双重演员 - 评论家体系结构用于学习选项

研究了一种基于 MDPs 的新型选项框架，应用 Actor-Critic 算法学习内部选项策略，终止条件和选项的主策略，并在具有挑战性的机器人仿真任务中展示了 DAC 对于传输学习的优越性能。

Apr, 2019

深度选项学习中权重共享的作用

本篇论文提出了一种针对 option-critic 架构中参数独立性的扩展，可以显著提高使用长期选项训练游戏的稳定性和效率。

Dec, 2019