具有通用数据生成策略的反事实学习

Dec, 2022

具有通用数据生成策略的反事实学习

Counterfactual Learning with General Data-generating Policies

Yusuke Narita, Kyohei Okumura, Akihiro Shimizu, Kohei Yata

TL;DR本文提出了用于处理全支撑和有缺陷支撑的日志策略，并证明其在样本量增加时预测收敛于反事实策略的真实表现的 off-policy evaluation 方法，并将其应用于优化在线平台的 coupon targeting policies。

Abstract

off-policy evaluation (OPE) attempts to predict the performance of counterfactual policies using log data from a different policy. We extend its applicability by developing an OPE method for a class of both full

off-policy evaluation counterfactual policies contextual-bandit settings supervised learning coupon targeting policies

发现论文，激发创造

针对离线策略评估的策略自适应估计器选择

本研究首次探讨了针对真实数据的估计器选择问题，并提出了一种自适应的估计器选择方法，该方法利用可用日志数据适当地子采样并构建伪策略，显着提高了估计器的准确性。

Nov, 2022

AutoOPE：自动离策择估计器选择

自动数据驱动的离策评估估计器选择方法，基于机器学习模型在合成任务中预测最佳估计器，能够在多个真实世界数据集上选择更好的估计器并显著降低计算成本。

Jun, 2024

离线策略评估何时有用？—— 基于数据的视角

通过数据集进行离线策略评估是重要但具有挑战性的，本研究提出了一种数据中心的框架用于评估其问题，并且通过对医疗数据集的实证分析验证了其能够评估机器学习和人工专家策略。

Nov, 2023

基于协变量偏移的对外有效性的非策略评估与学习

该研究旨在探讨如何利用历史数据评估和训练新政策，避免协变量偏移的问题，并提出有效的估算器和比较其理论性质。

Feb, 2020

使用核贝尔曼统计量进行负责任离线策略评估

本文提出一个新的变分框架，将 OPE 中计算紧密置信区间的问题转化为一个可行集上的优化问题，通过利用最近提出的 kernel Bellman 损失的统计特性来构造可行集。实证结果表明，我们的方法在不同环境下都能产生紧密的置信区间。

Aug, 2020

马尔可夫决策过程中的一致离线评估

提出了一种基于符合预测的 OPE 方法，可以在给定的一定置信水平下输出包含目标策略真实奖励的区间，并通过不同的方法处理由于目标策略和行为策略之间差异导致的分布偏移，并在保持相同置信水平的情况下，相对于现有方法降低区间长度。

Apr, 2023

离线推荐系统在未观察到的混杂下的评估

此研究聚焦在推荐系统中存在未观察到的混淆因素时进行离线政策估计，强调了由于混淆因素导致的统计偏差问题，并探讨了可能的研究方向以减轻其影响。

Sep, 2023

Off-policy Evaluation 的非渐进置信区间：原始和对偶界限

本文提出一种基于原始 - 对偶优化的算法，用于构建非渐进置信区间，该算法利用了 Feng 等人（2019 年）的核贝尔曼损失（KBL）和适用于具有未知混合条件的时间依赖数据的新的鞅集中不等式，明确展示了算法的优势。

Mar, 2021

离线策略评估方法（Off-Policy Evaluation）基于离线策略分类（Off-Policy Classification）

本文旨在解决深度强化学习领域中的模型选择问题，并提出一种基于 Q 函数作为决策函数的正无标记（PU）分类问题的度量方法来评估离线策略评估的性能，该方法适用于具有连续动作空间和稀疏二元奖励的马尔可夫决策过程，并且在一些任务上表现优于基线算法。

Jun, 2019

具有潜在混淆因素的无限时段强化学习中的离线评估

针对强化学习领域中的 Off-policy Evaluation 问题，本研究提出了一种基于无法观测到的干扰变量的无限时域 Markov 决策过程方法，并通过使用代理估计稳态分布比率以及最优化平衡等阶段性的方法，从 Off-policy 数据中识别政策价值。

Jul, 2020