针对离线策略评估的策略自适应估计器选择

AAAINov, 2022

针对离线策略评估的策略自适应估计器选择

Policy-Adaptive Estimator Selection for Off-Policy Evaluation

Takuma Udagawa, Haruka Kiyohara, Yusuke Narita, Yuta Saito, Kei Tateno

TL;DR本研究首次探讨了针对真实数据的估计器选择问题，并提出了一种自适应的估计器选择方法，该方法利用可用日志数据适当地子采样并构建伪策略，显着提高了估计器的准确性。

Abstract

off-policy evaluation (OPE) aims to accurately evaluate the performance of counterfactual policies using only offline logged data. Although many estimators have been developed, there is no single estimator that dominates the others, because the estimators' →

off-policy evaluation estimator selection pseudo policies data-driven accuracy

发现论文，激发创造

AutoOPE：自动离策择估计器选择

自动数据驱动的离策评估估计器选择方法，基于机器学习模型在合成任务中预测最佳估计器，能够在多个真实世界数据集上选择更好的估计器并显著降低计算成本。

Jun, 2024

OPERA：多个估计器加权汇总的离线自动策略评估

提出了一个新的、自适应混合使用一组离线策略评估器的算法，该算法不依赖于显式选择，并证明了该评估器对政策评估具有一致性和几个可取的属性。此外，还证明了与其他方法相比，该评估器可以在医疗保健和机器人技术方面选择更高性能的策略，为离线强化学习中的通用、估计器不可知的离线策略评估框架的易用性改进做出了贡献。

May, 2024

主动离线策略选择

本文提出了一种新颖的顺序决策方法 —— 主动离线策略选择，该方法结合了在线交互和记录数据，利用基于贝叶斯优化和策略相似性的内核函数，通过多个基准测试，包括实际机器人应用，证明该方法改进了最新的离线策略评估估计和纯在线策略评估，解决了缺乏在线交互数据的策略选择问题。

Jun, 2021

深度离线评估的基准测试

为了推动离线学习中的评估和选择复杂政策的发展，我们提供了一套用于基准测试的数据集和策略集，旨在提供一种标准化的进展度量方式，并对现有的算法进行评估。

Mar, 2021

评估和基准化离策略评估的风险收益权衡

评估线下记录数据所使用的反事实政策的有效性，并通过基于财务投资组合评估的新指标 SharpeRatio@k 来衡量政策组合的风险回报权衡，该指标已被集成到开源软件 SCOPE-RL 中，实证研究对不同评估器和强化学习任务进行了全面的基准测试，并提出了几个对未来 OPE 研究有启示的有趣方向和建议。

Nov, 2023

离线推荐系统在未观察到的混杂下的评估

此研究聚焦在推荐系统中存在未观察到的混淆因素时进行离线政策估计，强调了由于混淆因素导致的统计偏差问题，并探讨了可能的研究方向以减轻其影响。

Sep, 2023

具有通用数据生成策略的反事实学习

本文提出了用于处理全支撑和有缺陷支撑的日志策略，并证明其在样本量增加时预测收敛于反事实策略的真实表现的 off-policy evaluation 方法，并将其应用于优化在线平台的 coupon targeting policies。

Dec, 2022

离线策略评估何时有用？—— 基于数据的视角

通过数据集进行离线策略评估是重要但具有挑战性的，本研究提出了一种数据中心的框架用于评估其问题，并且通过对医疗数据集的实证分析验证了其能够评估机器学习和人工专家策略。

Nov, 2023

使用核贝尔曼统计量进行负责任离线策略评估

本文提出一个新的变分框架，将 OPE 中计算紧密置信区间的问题转化为一个可行集上的优化问题，通过利用最近提出的 kernel Bellman 损失的统计特性来构造可行集。实证结果表明，我们的方法在不同环境下都能产生紧密的置信区间。

Aug, 2020

基于协变量偏移的对外有效性的非策略评估与学习

该研究旨在探讨如何利用历史数据评估和训练新政策，避免协变量偏移的问题，并提出有效的估算器和比较其理论性质。

Feb, 2020