部分优势估计器用于近端策略优化

Jan, 2023

部分优势估计器用于近端策略优化

Partial advantage estimator for proximal policy optimization

Xiulei Song, Yizhao Jin, Greg Slabaugh, Simon Lucas

TL;DR研究如何改善不完整轨迹下 GAE 方法估计价值函数时的偏差问题，提出使用 GAE 方法的一部分来计算更新，称之为 “partial GAE approach”，在实验证明该方法在两个环境中都得到更好的结果。

Abstract

Estimation of value in policy gradient methods is a fundamental problem. generalized advantage estimation (GAE) is an exponentially-weighted esti

policy gradient methods generalized advantage estimation exponentially-weighted estimator truncated gae partial gae approach

发现论文，激发创造

UGAE: 一种新的非指数折扣方法

研究了强化学习中折扣机制的作用，提出了通用广义优势估计（UGAE）算法，引入了 Beta 加权折扣方法，实验证明 UGAE 算法在标准强化学习测试中表现优异于蒙特卡洛优势估计算法。

Feb, 2023

强化学习中策略优化的 Bootstrap 优势估计

本文提出了一种基于数据增强的优势估计方法，该方法基于 bootstrap 方法计算优势估计，并用于学习和更新策略和价值函数，有效地提高了累积奖励和未知环境的测试性能。

Oct, 2022

使用广义优势估计进行高维连续控制

本文探讨了如何使用深度神经网络和政策梯度方法，通过数值函数和置信区间优化解决了强化学习中大量样本和非稳定性问题，取得了在高难度 3D 运动任务中显著的实证结果。

Jun, 2015

通过密度估计进行多策略评估

我们提出了一种名为 CAESAR 的算法，用于解决多策略评估问题，该问题目标是对 K 个目标策略的性能（期望总奖励）进行准确度为 epsilon 且至少有 1-delta 的概率评估。CAESAR 算法通过计算近似的离线采样分布，并使用从中抽样的数据来同时估计策略值，通过生成粗略估计的目标策略的访问分布和优化离线采样分布来计算重要性加权比率，以实现较低的样本复杂度。

Mar, 2024

蒸馏策略优化

本文提出了一种基于演员 - 评论家学习框架的算法，通过借用感兴趣的分布式视角来评估和混合两个数据源以促进快速学习，并且采用方差约减机制和学习基线以稳定策略梯度的方法，从根本上改进了样本效率和可插值性。

Feb, 2023

竞争强化学习的后验采样：函数逼近和部分观测

该研究讨论了用于竞争强化学习的后验抽样算法，针对一般函数逼近的背景进行研究。在自我对弈和对抗性学习两个关键设置下，提出了自我对弈和对抗性广义躲避者系数（GEC）作为函数逼近的复杂度度量，捕捉了对马尔科夫博弈中的探索与利用的平衡。基于自我对弈 GEC，提出了基于模型的自我对弈后验抽样方法来控制玩家学习纳什均衡，成功应对了状态的部分可观测性。此外，确定了一系列部分可观测的 MG 模型，适应对手的对抗性策略的 MG 学习。结合对抗性 GEC，提出了基于模型的用于学习对抗性 MG 的后验抽样方法，包括可能部分可观测的情况。进一步给出了所提算法的低后悔界限，它能够与所提出的 GEC 和剧集数量 T 呈次线性缩放。据我们所知，我们首次开发了用于竞争强化学习的通用基于模型的后验抽样算法，可应用于大多数易处理的零和 MG 类别，包括完全可观测和部分可观测 MG，并适用于自我对弈和对抗性学习。

Oct, 2023

离线强化学习的优势感知策略优化

离线强化学习通过利用脱机数据集来制定有效的智能体策略而无需在线交互，以克服行为策略所支持的适当保守约束来解决分布不匹配问题。本文引入了一种新的 Advantage-Aware Policy Optimization (A2PO) 方法，用于在混合质量数据集下明确构建基于优势感知的策略约束进行离线学习。通过使用条件变分自编码器 (CVAE) 来解开错综复杂的行为策略的动作分布，并将所有训练数据的优势值建模为条件变量，A2PO 可以遵循这种解开的行为分布约束来优化面向高优势值的策略。在 D4RL 基准测试中，对单一质量和混合质量的数据集进行的广泛实验表明，A2PO 的结果优于现有的最先进的对手。我们的代码将公开发布。

Mar, 2024

基于线性函数逼近的在线离线证明有效度量对抗学习的生成式模仿学习

本文研究了在线和离线线性情况下生成对抗模仿学习，提出了乐观和悲观的生成对抗策略优化算法，并证明了算法的收敛性和误差界。

Aug, 2021

裁剪优势学习增加鲁棒性的行动间隙

本文介绍了一种新方法 clipped Advantage Learning，该方法能平衡行动差距和快速收敛的关系，同时保持稳健性并在多个强化学习实验中得到验证。

Mar, 2022

二阶优势信息的策略优化

本文提出了一种基于控制变量和 Rao-Blackwell 定理的策略优化方法，将其融合到一个统一的框架中，以降低高维连续控制任务中的策略梯度估计器方差，并成功将其应用于高维综合设置和 OpenAI Gym 的 MuJoCo 连续控制任务中。

May, 2018