层次平均回报策略梯度算法

AAAINov, 2019

Hierarchical Average Reward Policy Gradient Algorithms

Akshay Dharmavaram, Matthew Riemer, Shalabh Bhatnagar

TL;DR本文扩展了分层 option-critic 策略梯度定理，旨在通过使用基于常微分方程的方法分析，优化代理的策略，最大限度地获得马尔可夫链的最终奖励，并在稀疏奖励的网格世界环境中表明了学习 option 的竞争优势。

Abstract

option-critic learning is a general-purpose reinforcement learning (RL) framework that aims to address the issue of long term credit assignment

option-critic learning reinforcement learning temporal abstractions credit assignment average reward criterion

发现论文，激发创造

Option-Critic 架构

本文介绍了一种基于 options 框架下的 policy gradient theorems，提出了一种新的 option-critic 架构，能够同时学习 options 的内部策略和终止条件，展现了该框架在离散和连续环境中的灵活性和效率。

Sep, 2016

学习抽象选项

通过构建一个层次化的选项体系，我们扩展了 Bacon 等人 2017 年的研究成果，提出了一种新的深度选项体系架构，并在离散和连续环境中进行了实证研究。

Oct, 2018

深度选项学习中权重共享的作用

本篇论文提出了一种针对 option-critic 架构中参数独立性的扩展，可以显著提高使用长期选项训练游戏的稳定性和效率。

Dec, 2019

用于折扣和平均奖励 MDP 的方差约束 Actor-Critic 算法

研究采用演员 - 评论家算法处理马尔可夫决策问题中的风险敏感准则优化问题，并通过协同扰动优化算法及其他方法解决难以优化的问题。最后，论文在交通信号控制应用中展示了算法的实用性。

Mar, 2014

基于确定性策略搜索的离线平均回报演员 - 评论家算法

本文研究了强化学习中平均回报和折扣回报的区别，提出了面向平均回报的策略梯度定理，同时开发了基于此理论的 Average Reward Off-Policy Deep Deterministic Policy Gradient (ARO-DDPG) 算法。实验结果表明，ARO-DDPG 在 MuJoCo 环境中优于现有的基于平均回报的策略方法。

May, 2023

注意力选项评论家

本文引入基于注意力机制的扩展方法到 option-critic 架构中，以实现带状态抽象的多样性 options 学习，有效解决了 option-critic 中出现的选项主导和频繁切换的问题，并在转移学习任务中展示出更高的效率，可解释性和重复利用性。

Jan, 2022

基于策略的深度强化学习在平均回报准则下的应用

本研究针对均值回报的强化学习问题，提出了一种考虑策略改善和深度强化学习相结合的新算法 ATRPO，实验结果表明该算法在 MuJuCo 环境中不仅能够有效应对较为复杂的任务，而且在长期平均回报上的表现也优于传统算法 TRPO。

Jun, 2021

Safe Option-Critic: 在 Option-Critic 架构中学习安全性

本文提出了一种优化目标，通过鼓励智能体访问行为一致性较高的状态来学习安全选项，从而在标准期望回报和最小化回报的模型不确定性之间找到了平衡，并借助策略梯度算法优化了受约束的目标函数。在实验中，该方法取得了较好的表现，降低了回报的方差，并在奖励结构具有内在变异性的环境中提升了性能。

Jul, 2018

深层选项学习的特定于上下文的表示抽象

本文研究通过 Context-Specific Representation Abstraction for Deep Option Learning（CRADOL）框架学习因子化信念状态表示，以便于每个选项只学习状态空间的子集，从而减少策略空间搜索的规模，以提高分层强化学习（hierarchical reinforcement learning）中选项和行动的学习效率

Sep, 2021

Actor-Critic 方法在强化学习中的样本复杂度问题与函数近似

本研究提出了一种新的 Actor-Critic 算法变体，使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差，不论策略评估技术的选择，我们都能提供 Actor-Critic 算法的收敛速度，特别是当值函数采用线性函数近似且为连续状态和动作空间时，这些结果适用于 Temporal Difference, Gradient Temporal Difference 和 Accelerated Gradient Temporal Difference。

Oct, 2019