强化学习的高效离线策略评估

Apr, 2016

Data-Efficient Off-Policy Policy Evaluation for Reinforcement Learning

Philip S. Thomas, Emma Brunskill

TL;DR本文提出了一种新的方法来预测在给定历史数据的情况下，加强学习策略的表现。通过在模型基础评估和重要性采样评估之间进行混合，提出一个基于双重稳健估计器扩展的新估计器，使得估计结果的均方误差通常比现有方法低几个数量级。

Abstract

In this paper we present a new way of predicting the performance of a reinforcement learning policy given historical data that may have been generated by a different policy. The ability to evaluate a policy from

reinforcement learning policy evaluation historical data estimation importance sampling

发现论文，激发创造

强化学习的双重稳健性离线价值评估

研究了强化学习中 off-policy value evaluation 的问题，提出了一种将 doubly robust estimator 用于序列决策问题的方法，可以保证无偏差并且方差较低，在多个基准问题中都具有较高的准确度，并且可以作为安全策略改进的子程序。

Nov, 2015

在线估计和推断：强化学习中鲁棒政策评估

我们在强化学习中开发了一种在线鲁棒的策略评估过程，并基于其巴哈多表示建立了我们估计器的极限分布。此外，我们还开发了一种完全在线的过程，以基于渐近分布进行高效的统计推断。本文将鲁棒统计与强化学习中的统计推断联系起来，为策略评估提供了一种更多功能和可靠性的方法。最后，我们通过在真实世界的强化学习实验中进行数值实验来验证我们算法的有效性。

Oct, 2023

通过规则化的定向学习实现更高效的离线策略评估

本文介绍了基于因果推断的目标最大似然估计原理所提出的新型双重稳健的评估方法和多种方差减少技术，能够在多种强化学习环境和各种模型规范级别下比现有评估方法都能表现出更好的性能

Dec, 2019

强化学习中有解释的离线策略评估：突出具有影响力的状态转移

本文提出了一种混合人工智能系统的方法，该方法可以通过关注数据中对 OPE 估计产生很大影响的观察点，并制定一组选择规则，使领域专家能够分析 OPE 估计的有效性。该方法可以应用在医学模拟和真实世界中的重症监护数据中，可以用于识别评估过程中的限制并使评估更加稳健。

Feb, 2020

通过离线策略评估的保守探索策略优化

为了在现实世界的系统中部署一种强化学习代理，必须对学习过程提供保证。我们研究了保守型探索问题，在此问题中，学习者必须至少能够保证其性能至少与基线策略相当好。我们提出了第一个适用于连续有限时间问题中策略优化的保守型可证明高效无模型算法。我们利用重要性抽样技术，通过算法自动生成的数据来反事实地评估保守条件。我们推导了一个遗憾界限，并且展示了在学习过程中从未违反保守约束条件的（高概率）证明。最后，我们利用这些见解，通过离策略策略评估技术构建了一般的深度强化学习保守型探索模式。我们经验证明了我们方法的有效性。

Dec, 2023

表格式强化学习非渐近有效的离线策略评估

该文研究了强化学习的离线策略估值问题，介绍了传统的加权重要性采样算法在时间跨度上的方差爆炸问题，提出了一种基于边缘化重要性抽样算法的新方法，并对其进行了改进，但该算法的均方误差下限仍然不能与 Cramer-Rao 下界达到同阶，且仅限于有限动作空间的情况。

Jan, 2020

自适应数据采集的增强学习离线策略评估

本文针对相对于通常的数据收集方式更加广义的数据收集方式下离线 RL 算法的理论保证问题进行研究，并探讨 TMIS Offline Policy Evaluation 在 tabular MDPs 下的最小最优保证问题及实验分析。

Jun, 2023

基于序列建模的强化学习离策略评估中使用双重策略估计的统计高效方差缩减

提出了一种利用线下序列建模和线下强化学习相结合的双策略估计 (DPE) 的强化学习算法，具有统计上证明的方差降低性质，应用于多个 OpenAI Gym 中的任务，并在 D4RL 基准测试中取得了性能改进，优于基线方法，展示了序列建模强化学习中双策略估计的优势。

Aug, 2023

基于轨迹的离线深度强化学习

本文提出一种改进的基于 policy gradient 的强化学习算法，通过在参数空间中探索、重用过去的 off-policy 数据和确定性的行为策略等技术，提高了数据效率、降低了梯度估计的方差并避免了局部最优解。在一系列连续控制基准任务上的实验表明，相较于标准的 policy gradient 方法，该算法能够成功可靠地使用更少的系统交互来学习解决方案。

May, 2019

统计高效的离线策略梯度

本文研究了如何在离线数据中高效地估计策略梯度。我们提出了一个元算法，在不需要参数假设的情况下实现了可行均方误差的渐进下界，并且具有三重双重稳健性质。我们还讨论了如何估计算法所依赖的干扰量。最后，我们证明了当我们朝着新的策略梯度方向迈出步伐时，我们接近稳态点的速度是有保证的。

Feb, 2020