强化学习的双重最优策略评估

Oct, 2024

Doubly Optimal Policy Evaluation for Reinforcement Learning

Shuze Liu, Claire Chen, Shangtong Zhang

TL;DR本文针对强化学习中策略评估的高方差问题进行研究，提出了一种数据收集策略与数据处理基线的最优组合。我们理论上证明了该双重最优策略评估方法是无偏的，并且方差低于现有最佳方法，实验证明该方法显著降低了方差并提升了实证性能。

Abstract

Policy Evaluation estimates the performance of a policy by (1) collecting data from the environment and (2) processing raw data into a meaningful estimate. Due to the sequential nature of Reinforcement Learning,

发现论文，激发创造

强化学习的双重稳健性离线价值评估

研究了强化学习中 off-policy value evaluation 的问题，提出了一种将 doubly robust estimator 用于序列决策问题的方法，可以保证无偏差并且方差较低，在多个基准问题中都具有较高的准确度，并且可以作为安全策略改进的子程序。

Nov, 2015

强化学习的高效离线策略评估

本文提出了一种新的方法来预测在给定历史数据的情况下，加强学习策略的表现。通过在模型基础评估和重要性采样评估之间进行混合，提出一个基于双重稳健估计器扩展的新估计器，使得估计结果的均方误差通常比现有方法低几个数量级。

Apr, 2016

策略评估的随机方差缩减方法

本文提出了一种基于线性函数逼近的政策评估算法，将经验政策评估问题转化为一个凸凹优化鞍点问题，并通过一些批量梯度方法和随机方差约减方法解决问题，在实验中取得了良好的效果。

Feb, 2017

基于边际化重要性采样的强化学习最优离线评估

本研究提出了一种基于较小方差的边缘重要性抽样(MIS)的算法，用以解决RL中long horizon MDP的Off-policy evaluation(OPE)问题，并表现出在多个环境中的良好表现。

Jun, 2019

通过规则化的定向学习实现更高效的离线策略评估

本文介绍了基于因果推断的目标最大似然估计原理所提出的新型双重稳健的评估方法和多种方差减少技术，能够在多种强化学习环境和各种模型规范级别下比现有评估方法都能表现出更好的性能

Dec, 2019

评估强化学习算法的性能

本文提出了一种全新的强化学习算法综合评估方法，旨在解决现有评估指标不当的问题并确保性能结果的一致性和可重复性，且通过在标准基准任务上运用这种方法评估了广泛的强化学习算法。

Jun, 2020

具有样本重用的广义近端策略优化

研究利用理论达到策略提升保证的同时，结合较高的数据效率进行决策，通过广义的近端优化，基于样本的有效复用，实现了稳定性和样本效率之间的有效平衡，从而在表现上有了提高。

Oct, 2021

通过离线数据设计实验，对增强学习中的策略进行微调

利用离线数据集设计无反馈的探索策略，改进强化学习的政策。研究通过理论分析和度量方法，以原始数据集的局部覆盖和附加数据收集的量来衡量最终政策的质量。

Jul, 2023

不需要在策略采样的强化学习中的同策略策略梯度

透过引入自适应的离策略采样方法，本文提出了一种能够改进策略梯度算法数据效率的采样方法 PROPS 去减少采样误差并通过调整旧策略的数据分布使其接近策略梯度算法的数据要求，实验证明此方法能够减少采样误差并提高策略梯度算法的数据效率。

Nov, 2023

强化学习中的高效多策略评估

本研究解决了传统强化学习中针对多个目标策略的低效评估问题。通过设计特定的行为策略来减少所有目标策略估计量的方差，理论证明该方法在样本数量显著减少的情况下优于现有的在线评估方法。实验证明，该估计器在多个环境中具有更低的方差并实现了最先进的性能。

Aug, 2024