蒸馏策略优化

Feb, 2023

Distillation Policy Optimization

Jianfei Ma

TL;DR本文提出了一种基于演员 - 评论家学习框架的算法，通过借用感兴趣的分布式视角来评估和混合两个数据源以促进快速学习，并且采用方差约减机制和学习基线以稳定策略梯度的方法，从根本上改进了样本效率和可插值性。

Abstract

On-policy algorithms are supposed to be stable, however, sample-intensive yet. Off-policy algorithms utilizing past experiences are deemed to be sample-efficient, nevertheless, unstable in general. Can we design an algorithm that can employ the off-policy data, while exploit the stable

actor-critic learning off-policy data policy improvement variance reduction mechanisms sample efficiency

发现论文，激发创造

具有样本重用的广义近端策略优化

研究利用理论达到策略提升保证的同时，结合较高的数据效率进行决策，通过广义的近端优化，基于样本的有效复用，实现了稳定性和样本效率之间的有效平衡，从而在表现上有了提高。

Oct, 2021

针对离线强化学习的高斯混合评论家的重新访问：一种基于样本的方法

本文介绍了一种新的离线强化学习算法（基于混合高斯的 Actor-Critic 方法），该方法成功地解决了 C51 方法中在最小值和最大值以及所使用的区间数上的先验知识的限制，并在众多挑战性的任务上取得了最先进的性能。

Apr, 2022

分布式策略优化：连续控制的另一种方法

研究提供了一种新的基于分布框架的生成式策略梯度算法 (GAC) 来解决现有的策略梯度方法由于限制策略表示为参数分布类而导致的局部移动及收敛到亚最优解的问题。该方法不需要知道分布函数，可以有效处理连续控制问题。实验结果显示 GAC 方法优于当前最先进的基线方法。

May, 2019

基于轨迹的离线深度强化学习

本文提出一种改进的基于 policy gradient 的强化学习算法，通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术，提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明，相较于标准的 policy gradient 方法，该算法能够成功可靠地使用更少的系统交互来学习解决方案。

May, 2019

无需重要性采样的 Actor-Critic 方法的离线校正

本文研究了基于离线数据的深度强化学习算法，提出了一种新的策略相似度度量方法来提高算法的采样效率和泛化能力，并且证明了该方法可以实现安全的离线学习。实验证明，该方法相较于其他竞争算法在大多数情况下能够更高效地提高学习效率。

Aug, 2022

方差惩罚的在线与离线行为者 - 评论家算法

本研究提出了基于策略梯度方法的强化学习算法，通过对回报的方差进行惩罚，保证了算法的效果可靠，并在标准测试环境下展示了相应结果。

Feb, 2021

离策演员 - 评论家

本研究提出了一种在线的增量式 actor-critic 算法来应对现实生活中的多种问题，在采用 off-policy 学习和最新的 gradient temporal-difference 技术的同时，能够灵活地运用 policy 设计，具有较强的学习潜力和泛化性能，并能收敛至较好的算法性能。

May, 2012

强化学习的双重稳健离线策略演员 - 评论家算法

本文研究了离策略演员 - 评论家算法的离策略评论家评估问题，并通过将双重稳健估计方法应用于演员 - 评论家算法中，成功提高了连续控制任务的性能。同时，该方法还可以应用于存在高方差和不稳定性等问题的奖励信号，从而提高了强化学习的稳健性与安全性。

Dec, 2019

带状态分布修正的离策略策略梯度

该研究针对 Markov 决策过程中的离策略策略优化问题，开发了一种新颖的离策略策略梯度方法，解决了基于之前行为策略采集数据的状态分布与学习策略下的状态分布不匹配的问题，并提供了该方法的理论收敛保证和实验验证。

Apr, 2019

具有理论支持的样本重用的广义政策改进算法

该研究提出了一类广义政策提升算法，将在线算法和离线算法相结合，在保证策略改进的同时，实现了高效数据复用，为深度强化学习的实际应用提供了可行性。

Jun, 2022