表格式强化学习非渐近有效的离线策略评估

Jan, 2020

表格式强化学习非渐近有效的离线策略评估

Asymptotically Efficient Off-Policy Evaluation for Tabular Reinforcement Learning

Ming Yin, Yu-Xiang Wang

TL;DR该文研究了强化学习的离线策略估值问题，介绍了传统的加权重要性采样算法在时间跨度上的方差爆炸问题，提出了一种基于边缘化重要性抽样算法的新方法，并对其进行了改进，但该算法的均方误差下限仍然不能与 Cramer-Rao 下界达到同阶，且仅限于有限动作空间的情况。

Abstract

We consider the problem of off-policy evaluation for reinforcement learning, where the goal is to estimate the expected reward of a target policy $\pi$ using offline data collected by running a logging policy $\m

off-policy evaluation reinforcement learning importance sampling cramer-rao lower bound markov decision process

发现论文，激发创造

基于边际化重要性采样的强化学习最优离线评估

本研究提出了一种基于较小方差的边缘重要性抽样 (MIS) 的算法，用以解决 RL 中 long horizon MDP 的 Off-policy evaluation (OPE) 问题，并表现出在多个环境中的良好表现。

Jun, 2019

边缘化重要性采样用于离环境策略评估

基于强化学习的方法在现实世界的机器人上训练和部署策略是常常样本低效的，因此本论文提出了一种新方法，通过结合模拟器和真实世界的离线数据来评估任何策略的真实世界性能，该方法使用了边际化重要性采样的框架，通过在模拟器中引入目标策略的占据情况作为中间变量，并将密度比率学习为两个可以单独学习的项的乘积，从而解决了大密度比率和间接监督的问题。通过在 Sim2Sim 环境以及 Sim2Real 任务中的验证实验，结果表明该方法能够在多个 Sim2Sim 间隙、目标策略和离线数据收集策略上得到很好的推广效果。

Sep, 2023

强化学习的高效离线策略评估

本文提出了一种新的方法来预测在给定历史数据的情况下，加强学习策略的表现。通过在模型基础评估和重要性采样评估之间进行混合，提出一个基于双重稳健估计器扩展的新估计器，使得估计结果的均方误差通常比现有方法低几个数量级。

Apr, 2016

无限时间步强化学习的黑盒离线评估

本文提出了一种基于 Reproducing Kernel Hilbert Spaces（RKHS）的新估计器，用于解决长远时间内的 off-policy 估计问题，其不需要对行为策略的知识或基于其改进的数据进行抽样，并提出了一种可以消除当前做法局限性的解决方案。

Mar, 2020

使用继承表示的深度强化学习方法实现边缘化重要性采样

本文介绍了一种基于 successor representation 的边际重要性抽样 (MIS) 方法，与当前最先进的 MIS 方法相比，该方法减少了优化难度并具有普适性。作者在 Atari 和 MuJoCo 等挑战性环境中进行了实验性能评估。

Jun, 2021

通过状态抽象将边缘重要抽样扩展到高维状态空间

本研究提出了一种基于状态抽象的离线策略评估方法，采用较低维的状态空间可以降低重要性采样中方差的影响，提高评估准确性和鲁棒性。

Dec, 2022

自适应数据采集的增强学习离线策略评估

本文针对相对于通常的数据收集方式更加广义的数据收集方式下离线 RL 算法的理论保证问题进行研究，并探讨 TMIS Offline Policy Evaluation 在 tabular MDPs 下的最小最优保证问题及实验分析。

Jun, 2023

几乎没有视野限制的离线强化学习

本文利用离线强化学习技术研究了时域同质马尔可夫决策过程上的策略评估和优化问题，并提出了一种递归方法来限制离线场景下的 “总方差” 项，得到了近似无视野远的样本复杂度上限。

Mar, 2021

打破视野的诅咒：无穷视野离线估计

本文提出了一种新的离线策略估计方法，其中将重要性采样直接应用于平稳态访问分布，从而避免了现有估计器所面临的方差爆炸问题。通过仅从行为分布中采样轨迹，我们开发了一种估计密度比的新方法，并为估算问题设计了 mini-max 损失函数，并推导出了 RKHS 情况下的封闭形式解决方案。

Oct, 2018

线性函数逼近下的最小化最优离线策略评估

本文研究利用函数逼近的批量数据强化学习的统计理论，针对离线策略评估问题提出了基于回归的适应 Q 迭代方法，证明该方法是信息理论上的最优方法，错误估计接近最小，进而提供容易计算的置信区间，该方法在乐观规划和安全策略改进中可能有用

Feb, 2020