强化学习中的高效多策略评估

Aug, 2024

Efficient Multi-Policy Evaluation for Reinforcement Learning

Shuze Liu, Yuxin Chen, Shangtong Zhang

TL;DR本研究解决了传统强化学习中针对多个目标策略的低效评估问题。通过设计特定的行为策略来减少所有目标策略估计量的方差，理论证明该方法在样本数量显著减少的情况下优于现有的在线评估方法。实验证明，该估计器在多个环境中具有更低的方差并实现了最先进的性能。

Abstract

To unbiasedly evaluate multiple target policies, the dominant approach among RL practitioners is to run and evaluate each target policy separately. However, this evaluation method is far from efficient because samples are not shared across policies, and running target policies to evaluate themselves is actually not optimal. In this paper, we address these tw

发现论文，激发创造

强化学习的高效离线策略评估

本文提出了一种新的方法来预测在给定历史数据的情况下，加强学习策略的表现。通过在模型基础评估和重要性采样评估之间进行混合，提出一个基于双重稳健估计器扩展的新估计器，使得估计结果的均方误差通常比现有方法低几个数量级。

Apr, 2016

策略评估的随机方差缩减方法

本文提出了一种基于线性函数逼近的政策评估算法，将经验政策评估问题转化为一个凸凹优化鞍点问题，并通过一些批量梯度方法和随机方差约减方法解决问题，在实验中取得了良好的效果。

Feb, 2017

行为策略搜索增强数据高效策略评估

本篇论文提出了一个基于行为策略的评估方法，利用之前数据收集的行为策略，提供了一个标准方法更低均方误差无偏估计的解决方案，并给出了优化理论和搜索算法。

Jun, 2017

多样性导向的策略梯度：利用最大平均差异找到一组不同的策略

本文使用基于梯度的优化技术，旨在找到不同行为的多样化的性能良好的策略集，在强化学习方法中，鉴别近似最优策略集的重要性被正式化和研究，并在基准测试和医疗保健任务中展示了应用效果。

May, 2019

用双重强化学习高效突破离线策略评估中的时序限制

本文研究了如何在强化学习中进行非策略评估(off-policy evaluation)，当考虑马尔可夫和时间不变的结构时，给出了OPE的效率界限。我们开发了一种基于双重强化学习（DRL）的新估计器，利用我们推导出的高效影响函数来进行OPE，并探讨了结构优化对OPE的性能提升。

Sep, 2019

通过规则化的定向学习实现更高效的离线策略评估

本文介绍了基于因果推断的目标最大似然估计原理所提出的新型双重稳健的评估方法和多种方差减少技术，能够在多种强化学习环境和各种模型规范级别下比现有评估方法都能表现出更好的性能

Dec, 2019

使用广义策略更新构建迁移的良好行为基础

本文提出了一种简单有效的算法，通过构建独立的策略集合，可以在不需要大量数据的情况下，在各种复杂的强化学习任务中实现高水平的性能表现，同时解决了基于线性特征函数的多个任务的奖励子问题，并应用于终身强化学习设置中。

Dec, 2021

不需要在策略采样的强化学习中的同策略策略梯度

透过引入自适应的离策略采样方法，本文提出了一种能够改进策略梯度算法数据效率的采样方法 PROPS 去减少采样误差并通过调整旧策略的数据分布使其接近策略梯度算法的数据要求，实验证明此方法能够减少采样误差并提高策略梯度算法的数据效率。

Nov, 2023

偏差弹性多步离策略目标条件强化学习

通过解决多步GCRL中的偏差问题，本文提出了一种方法来提高学习效率，并在实证研究中证明该方法在十步学习场景下能够优于基线和多步GCRL的几个先进模型。

Nov, 2023

强化学习的双重最优策略评估

本文针对强化学习中策略评估的高方差问题进行研究，提出了一种数据收集策略与数据处理基线的最优组合。我们理论上证明了该双重最优策略评估方法是无偏的，并且方差低于现有最佳方法，实验证明该方法显著降低了方差并提升了实证性能。

Oct, 2024