离线推荐系统在未观察到的混杂下的评估

Sep, 2023

离线推荐系统在未观察到的混杂下的评估

Offline Recommender System Evaluation under Unobserved Confounding

Olivier Jeunen, Ben London

TL;DR此研究聚焦在推荐系统中存在未观察到的混淆因素时进行离线政策估计，强调了由于混淆因素导致的统计偏差问题，并探讨了可能的研究方向以减轻其影响。

Abstract

off-policy estimation (OPE) methods allow us to learn and evaluate decision-making policies from logged data. This makes them an attractive choice for the offline evaluation of recommender systems, and several recent works have reported successful adoption of OPE methods to this end. A

off-policy estimation unobserved confounders recommendation systems statistical bias logging propensities

发现论文，激发创造

针对未观察到的混淆因素的时序决策离线策略评估

研究探讨当评估策略的绩效受到未观察到的混淆因素的影响时，如何通过开发最坏情况下的绩效边界来保证 OPE 方法的健壮性，并提出了一种计算最坏情况下边界的高效损失最小化过程，在两个模拟的医疗保健示例中证明了该方法的有效性。

Mar, 2020

具有潜在混淆因素的无限时段强化学习中的离线评估

针对强化学习领域中的 Off-policy Evaluation 问题，本研究提出了一种基于无法观测到的干扰变量的无限时域 Markov 决策过程方法，并通过使用代理估计稳态分布比率以及最优化平衡等阶段性的方法，从 Off-policy 数据中识别政策价值。

Jul, 2020

针对离线策略评估的策略自适应估计器选择

本研究首次探讨了针对真实数据的估计器选择问题，并提出了一种自适应的估计器选择方法，该方法利用可用日志数据适当地子采样并构建伪策略，显着提高了估计器的准确性。

Nov, 2022

AutoOPE：自动离策择估计器选择

自动数据驱动的离策评估估计器选择方法，基于机器学习模型在合成任务中预测最佳估计器，能够在多个真实世界数据集上选择更好的估计器并显著降低计算成本。

Jun, 2024

具有通用数据生成策略的反事实学习

本文提出了用于处理全支撑和有缺陷支撑的日志策略，并证明其在样本量增加时预测收敛于反事实策略的真实表现的 off-policy evaluation 方法，并将其应用于优化在线平台的 coupon targeting policies。

Dec, 2022

基于级联行为模型的排序策略双重稳健离线评估

提出了一种新的基于级联假设的有偏差 - 无方差权衡评估器来评估推荐系统中的排名策略，在综合合成和真实数据实验中优于现有评估器。

Feb, 2022

不确定性感知的离线学习

本研究通过显式建模不确定性，并提出一种不确定性感知的倾向得分估计器（UIPS），可改进离线策略优化，实验结果表明其比现有方法更具有样本效益。

Mar, 2023

$Δ ext {-}{m OPE}$：使用一对策略进行离策略估计

以离线数据为基础，离策略为核心框架，使用逆概率估计和其扩展方法提出 Delta-OPE 方法，并引入优化效率的方差最优加性控制变量，实验结果表明这些方法显著提高了评估和学习的性能。

May, 2024

OPERA：多个估计器加权汇总的离线自动策略评估

提出了一个新的、自适应混合使用一组离线策略评估器的算法，该算法不依赖于显式选择，并证明了该评估器对政策评估具有一致性和几个可取的属性。此外，还证明了与其他方法相比，该评估器可以在医疗保健和机器人技术方面选择更高性能的策略，为离线强化学习中的通用、估计器不可知的离线策略评估框架的易用性改进做出了贡献。

May, 2024

基于协变量偏移的对外有效性的非策略评估与学习

该研究旨在探讨如何利用历史数据评估和训练新政策，避免协变量偏移的问题，并提出有效的估算器和比较其理论性质。

Feb, 2020