估计记录策略的双重稳健离线策略评估

Apr, 2024

估计记录策略的双重稳健离线策略评估

Doubly-Robust Off-Policy Evaluation with Estimated Logging Policy

Kyungbok Lee, Myunghee Cho Paik

TL;DR该研究介绍了一种新的双鲁棒离策评估（OPE）估计器，用于未知的日志策略和价值函数情况下，能估计产生半参数下界的最小渐近方差。

Abstract

We introduce a novel doubly-robust (DR) off-policy evaluation (OPE) estimator for markov decision processes, DRUnknown, designed for situa

doubly-robust off-policy evaluation markov decision processes logging policy value function

发现论文，激发创造

更加健壮的双重偏差离线评估

本文针对强化学习中的离策略评估问题，提出了一种名为 MRDR 的更加鲁棒的 Doubly Robust 估计方法，该方法通过最小化 DR 估计器的方差来学习模型参数，并在上下文决策和强化学习基准问题中进行评估，证明了其强一致性和渐进最优性。

Feb, 2018

双重稳健分布稳健离线评估与学习

本研究提出了基于 KL 散度不确定性集合的局部化双重稳健离线评估（LDR$^2$OPE）和连续双重稳健离线学习（CDR$^2$OPL）算法，用于应对观测数据的环境分布移位问题及未知倾向估计带来的方差挑战，其表现在模拟实验中得到验证，并进一步扩展到了一般的 $f$-divergence 不确定性集合。

Feb, 2022

马尔科夫决策过程中的双重强化学习，用于高效的离线策略评估

这篇论文讲述了在马尔科夫决策过程中 (off-policy evaluation) 基于无记忆存储的状态、行动和奖励的情况下，使用交叉折叠法来计算 $q$-functions 和边际密度比率的双重强化学习 (DRL) 的有效性研究。研究表明，在第四次方根率下估算两个因素时，DRL 具有高效性，并且当仅一个因素一致时也具有双重正确性。

Aug, 2019

具有通用数据生成策略的反事实学习

本文提出了用于处理全支撑和有缺陷支撑的日志策略，并证明其在样本量增加时预测收敛于反事实策略的真实表现的 off-policy evaluation 方法，并将其应用于优化在线平台的 coupon targeting policies。

Dec, 2022

基于级联行为模型的排序策略双重稳健离线评估

提出了一种新的基于级联假设的有偏差 - 无方差权衡评估器来评估推荐系统中的排名策略，在综合合成和真实数据实验中优于现有评估器。

Feb, 2022

Off-policy Evaluation 的非渐进置信区间：原始和对偶界限

本文提出一种基于原始 - 对偶优化的算法，用于构建非渐进置信区间，该算法利用了 Feng 等人（2019 年）的核贝尔曼损失（KBL）和适用于具有未知混合条件的时间依赖数据的新的鞅集中不等式，明确展示了算法的优势。

Mar, 2021

线性函数逼近下的方差感知离线评估

本研究旨在通过使用值函数的方差信息提高离线策略评估中的样本效率，其中针对非时变线性马尔可夫决策过程（MDPs），提出了 VA-OPE 算法，使用值函数的方差对 Fitted Q-Iteration 中的 Bellman 残差进行重新加权，并且我们展示了我们的算法比最好已知的结果实现了更紧密的误差界限。我们对行为策略和目标策略之间的分布变化进行了细致的描述，而广泛的数值实验也支持了我们的理论。

Jun, 2021

强化学习的本质高效、稳定和有界离线策略评估

本文提出了一种基于经验似然的 OPE 估算器，相对于重要性抽样、自归一化重要性抽样和双重稳健估计具有更高的效率，并满足自归一化重要性抽样的稳定性和有界性。

Jun, 2019

多个记录策略的最优离策略评估

本文研究了从多个日志策略进行的基于离线的评估（OPE），每个策略生成一个固定大小的数据集，即分层抽样。我们通过找到具有最小方差的多个记录器的 OPE 估计器来解决此困境，并建立起了分层抽样下的效率界限，并提出了一个能够实现这个界限的估计器，当给定一致的 $q$-estimates 时。同时，我们也提出了一种选择控制变量来最小化方差的假设类的方法，以防止 $q$- 函数的误工。广泛的实验证明了我们的方法有效利用了来自多个记录器的基于策略外数据的分层抽样。

Oct, 2020

用双重强化学习高效突破离线策略评估中的时序限制

本文研究了如何在强化学习中进行非策略评估 (off-policy evaluation)，当考虑马尔可夫和时间不变的结构时，给出了 OPE 的效率界限。我们开发了一种基于双重强化学习（DRL）的新估计器，利用我们推导出的高效影响函数来进行 OPE，并探讨了结构优化对 OPE 的性能提升。

Sep, 2019