针对离线强化学习的高斯混合评论家的重新访问：一种基于样本的方法

Apr, 2022

针对离线强化学习的高斯混合评论家的重新访问：一种基于样本的方法

Revisiting Gaussian mixture critics in off-policy reinforcement learning: a sample-based approach

Bobak Shahriari, Abbas Abdolmaleki, Arunkumar Byravan, Abe Friesen, Siqi Liu...

TL;DR本文介绍了一种新的离线强化学习算法（基于混合高斯的 Actor-Critic 方法），该方法成功地解决了 C51 方法中在最小值和最大值以及所使用的区间数上的先验知识的限制，并在众多挑战性的任务上取得了最先进的性能。

Abstract

actor-critic algorithms that make use of distributional policy evaluation have frequently been shown to outperform their non-distributional counterparts on many challenging control tasks. Examples of this behavio

actor-critic algorithms distributional policy evaluation value estimation mixture of gaussians continuous control tasks

发现论文，激发创造

分布式策略优化：连续控制的另一种方法

研究提供了一种新的基于分布框架的生成式策略梯度算法 (GAC) 来解决现有的策略梯度方法由于限制策略表示为参数分布类而导致的局部移动及收敛到亚最优解的问题。该方法不需要知道分布函数，可以有效处理连续控制问题。实验结果显示 GAC 方法优于当前最先进的基线方法。

May, 2019

分布式分布式确定性策略梯度

本研究采用分布式角度的强化学习来适用于连续控制环境，提出了分布式分布式深度确定策略梯度算法 D4PG，结合了 N 步回报和优先经验回放等简单改进。实验结果表明，在各种控制任务、难以操作的任务和一组基于障碍的定位任务中，D4PG 算法均实现了最先进的性能。

Apr, 2018

Actor-Critic 方法在强化学习中的样本复杂度问题与函数近似

本研究提出了一种新的 Actor-Critic 算法变体，使用 Monte Carlo 演算法在策略搜索更新期间进行 rollouts 以控制偏差，不论策略评估技术的选择，我们都能提供 Actor-Critic 算法的收敛速度，特别是当值函数采用线性函数近似且为连续状态和动作空间时，这些结果适用于 Temporal Difference, Gradient Temporal Difference 和 Accelerated Gradient Temporal Difference。

Oct, 2019

离策略多智体分解策略梯度

本文研究多智能体问题中现有的算法相比于最先进的价值方法存在的性能差异，并提出了一种多智能体分解的策略梯度方法，该方法引入了价值函数分解的想法，并针对离散和连续动作空间中的集中 - 分散不匹配和信用分配问题进行了解决。实验结果表明，该方法在同类算法中的表现优异。

Jul, 2020

无需重要性采样的 Actor-Critic 方法的离线校正

本文研究了基于离线数据的深度强化学习算法，提出了一种新的策略相似度度量方法来提高算法的采样效率和泛化能力，并且证明了该方法可以实现安全的离线学习。实验证明，该方法相较于其他竞争算法在大多数情况下能够更高效地提高学习效率。

Aug, 2022

蒸馏策略优化

本文提出了一种基于演员 - 评论家学习框架的算法，通过借用感兴趣的分布式视角来评估和混合两个数据源以促进快速学习，并且采用方差约减机制和学习基线以稳定策略梯度的方法，从根本上改进了样本效率和可插值性。

Feb, 2023

双重稳健离线演员 - 评论家算法：收敛和最优性

本文提出了一种新的基于 actor-critic 算法的离策略强化学习算法 DR-Off-PAC，通过利用已学习的干扰函数来降低估计误差并减少采样复杂度，同时采用单时间尺度结构，可以更加高效地实现一次更新。其中采用密度比方法来调整分布不匹配以稳定收敛，并且通过分析样本复杂度证明了算法渐进的收敛速率。

Feb, 2021

基于轨迹的离线深度强化学习

本文提出一种改进的基于 policy gradient 的强化学习算法，通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术，提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明，相较于标准的 policy gradient 方法，该算法能够成功可靠地使用更少的系统交互来学习解决方案。

May, 2019

强化学习的双重稳健离线策略演员 - 评论家算法

本文研究了离策略演员 - 评论家算法的离策略评论家评估问题，并通过将双重稳健估计方法应用于演员 - 评论家算法中，成功提高了连续控制任务的性能。同时，该方法还可以应用于存在高方差和不稳定性等问题的奖励信号，从而提高了强化学习的稳健性与安全性。

Dec, 2019

部分观察多智能体环境下的演员 - 评论家策略优化

本研究讨论了基于梯度上升的策略梯度和演员 - 评论家算法在部分可观测多智能体环境中的角色，并通过对零和不完全信息游戏等模型的建模来优化模型自由多智能体增强学习的表现。

Oct, 2018