多个记录策略的最优离策略评估

Oct, 2020

Optimal Off-Policy Evaluation from Multiple Logging Policies

Nathan Kallus, Yuta Saito, Masatoshi Uehara

TL;DR本文研究了从多个日志策略进行的基于离线的评估（OPE），每个策略生成一个固定大小的数据集，即分层抽样。我们通过找到具有最小方差的多个记录器的 OPE 估计器来解决此困境，并建立起了分层抽样下的效率界限，并提出了一个能够实现这个界限的估计器，当给定一致的 $q$-estimates 时。同时，我们也提出了一种选择控制变量来最小化方差的假设类的方法，以防止 $q$- 函数的误工。广泛的实验证明了我们的方法有效利用了来自多个记录器的基于策略外数据的分层抽样。

Abstract

We study off-policy evaluation (OPE) from multiple logging policies, each generating a dataset of fixed size, i.e., stratified sampling. Previous work noted that in this setting the ordering of the variances of d

off-policy evaluation importance sampling stratified sampling $q$-estimates variance minimization

发现论文，激发创造

针对离线策略评估的策略自适应估计器选择

本研究首次探讨了针对真实数据的估计器选择问题，并提出了一种自适应的估计器选择方法，该方法利用可用日志数据适当地子采样并构建伪策略，显着提高了估计器的准确性。

Nov, 2022

基于边际化重要性采样的强化学习最优离线评估

本研究提出了一种基于较小方差的边缘重要性抽样 (MIS) 的算法，用以解决 RL 中 long horizon MDP 的 Off-policy evaluation (OPE) 问题，并表现出在多个环境中的良好表现。

Jun, 2019

估计记录策略的双重稳健离线策略评估

该研究介绍了一种新的双鲁棒离策评估（OPE）估计器，用于未知的日志策略和价值函数情况下，能估计产生半参数下界的最小渐近方差。

Apr, 2024

线性函数逼近下的方差感知离线评估

本研究旨在通过使用值函数的方差信息提高离线策略评估中的样本效率，其中针对非时变线性马尔可夫决策过程（MDPs），提出了 VA-OPE 算法，使用值函数的方差对 Fitted Q-Iteration 中的 Bellman 残差进行重新加权，并且我们展示了我们的算法比最好已知的结果实现了更紧密的误差界限。我们对行为策略和目标策略之间的分布变化进行了细致的描述，而广泛的数值实验也支持了我们的理论。

Jun, 2021

离线评估和策略优化的极小极大值区间

该研究使用价值函数和边际重要性权重研究了最小极小化方法在离线策略评估中的应用，结合两种不同风格的方法，提出了一个特殊类型的双重稳健方法，解决了偏见问题，同时还探索了其在数据覆盖不足的离线策略优化中对探索和开发的影响。

Feb, 2020

基于协变量偏移的对外有效性的非策略评估与学习

该研究旨在探讨如何利用历史数据评估和训练新政策，避免协变量偏移的问题，并提出有效的估算器和比较其理论性质。

Feb, 2020

离线策略评估方法（Off-Policy Evaluation）基于离线策略分类（Off-Policy Classification）

本文旨在解决深度强化学习领域中的模型选择问题，并提出一种基于 Q 函数作为决策函数的正无标记（PU）分类问题的度量方法来评估离线策略评估的性能，该方法适用于具有连续动作空间和稀疏二元奖励的马尔可夫决策过程，并且在一些任务上表现优于基线算法。

Jun, 2019

OPERA：多个估计器加权汇总的离线自动策略评估

提出了一个新的、自适应混合使用一组离线策略评估器的算法，该算法不依赖于显式选择，并证明了该评估器对政策评估具有一致性和几个可取的属性。此外，还证明了与其他方法相比，该评估器可以在医疗保健和机器人技术方面选择更高性能的策略，为离线强化学习中的通用、估计器不可知的离线策略评估框架的易用性改进做出了贡献。

May, 2024

AutoOPE：自动离策择估计器选择

自动数据驱动的离策评估估计器选择方法，基于机器学习模型在合成任务中预测最佳估计器，能够在多个真实世界数据集上选择更好的估计器并显著降低计算成本。

Jun, 2024

使用核贝尔曼统计量进行负责任离线策略评估

本文提出一个新的变分框架，将 OPE 中计算紧密置信区间的问题转化为一个可行集上的优化问题，通过利用最近提出的 kernel Bellman 损失的统计特性来构造可行集。实证结果表明，我们的方法在不同环境下都能产生紧密的置信区间。

Aug, 2020