交叉验证的离策略评估

May, 2024

Cross-Validated Off-Policy Evaluation

Matej Cief, Michal Kompan, Branislav Kveton

TL;DR本文研究了离策略评估中的估计器选择和超参数调优问题，并展示了如何使用交叉验证来解决这一问题，从而验证了交叉验证在离策略评估中是可行的。

Abstract

In this paper, we study the problem of estimator selection and hyper-parameter tuning in off-policy evaluation. Although →

发现论文，激发创造

本研究首次探讨了针对真实数据的估计器选择问题，并提出了一种自适应的估计器选择方法，该方法利用可用日志数据适当地子采样并构建伪策略，显着提高了估计器的准确性。

Nov, 2022

本研究提出一种基于数据驱动方法的估计器选择通用算法，为评估离线策略提供了一个有效的解决方案，在深入的情境模型和强化学习案例中都具有广泛的适用价值。经过实验验证，能够与现有不同相关方法相较而言获得更优的效果。

Feb, 2020

该研究旨在探讨如何利用历史数据评估和训练新政策，避免协变量偏移的问题，并提出有效的估算器和比较其理论性质。

Feb, 2020

本研究对交叉验证在模型选择中的表现进行了综述，其中特别强调了实证研究结果和理论研究结果的区别，并给出了根据问题特征选择最佳交叉验证程序的指南。

Jul, 2009

本文提出了一种混合人工智能系统的方法，该方法可以通过关注数据中对 OPE 估计产生很大影响的观察点，并制定一组选择规则，使领域专家能够分析 OPE 估计的有效性。该方法可以应用在医学模拟和真实世界中的重症监护数据中，可以用于识别评估过程中的限制并使评估更加稳健。

Feb, 2020

为了推动离线学习中的评估和选择复杂政策的发展，我们提供了一套用于基准测试的数据集和策略集，旨在提供一种标准化的进展度量方式，并对现有的算法进行评估。

Mar, 2021

自动数据驱动的离策评估估计器选择方法，基于机器学习模型在合成任务中预测最佳估计器，能够在多个真实世界数据集上选择更好的估计器并显著降低计算成本。

Jun, 2024

本文介绍了基于因果推断的目标最大似然估计原理所提出的新型双重稳健的评估方法和多种方差减少技术，能够在多种强化学习环境和各种模型规范级别下比现有评估方法都能表现出更好的性能

Dec, 2019

本研究提供并使用实际数据和标准测试平台，基于广告展示探索了历来研究最新的无政策评估和学习方法（如双重优化、POEM 和基于回归基线的监督学习），结果表明最新的无政策学习方法可以改进大规模真实世界数据集上的历史最优监督学习技术。

Dec, 2016

本文旨在解决深度强化学习领域中的模型选择问题，并提出一种基于 Q 函数作为决策函数的正无标记（PU）分类问题的度量方法来评估离线策略评估的性能，该方法适用于具有连续动作空间和稀疏二元奖励的马尔可夫决策过程，并且在一些任务上表现优于基线算法。

Jun, 2019