反事实学习方法的大规模验证：一个测试平台

NIPSDec, 2016

反事实学习方法的大规模验证：一个测试平台

Large-scale Validation of Counterfactual Learning Methods: A Test-Bed

Damien Lefortier, Adith Swaminathan, Xiaotao Gu, Thorsten Joachims, Maarten de Rijke

TL;DR本研究提供并使用实际数据和标准测试平台，基于广告展示探索了历来研究最新的无政策评估和学习方法（如双重优化、POEM 和基于回归基线的监督学习），结果表明最新的无政策学习方法可以改进大规模真实世界数据集上的历史最优监督学习技术。

Abstract

The ability to perform effective off-policy learning would revolutionize the process of building better interactive systems, such as search engines and →

off-policy learning interactive systems recommendation systems display advertising supervised learning

发现论文，激发创造

具有通用数据生成策略的反事实学习

本文提出了用于处理全支撑和有缺陷支撑的日志策略，并证明其在样本量增加时预测收敛于反事实策略的真实表现的 off-policy evaluation 方法，并将其应用于优化在线平台的 coupon targeting policies。

Dec, 2022

推荐系统的离线 A/B 测试

本文介绍了基于历史数据的线下评估方法，计算新推荐系统版本可能带来的收益提升，提供对实际环境下偏差建模的反事实估计量的变量，通过在线广告个性化产品推荐引起商业指标相关性的商业实验来检验这些估计值。

Jan, 2018

反事实风险最小化：从带状反馈中学习

开发了一种学习原则和一种有效算法，用于从记录的 bandit 反馈中进行批处理学习。由此产生的 Counterfactual Risk Minimization 原则提供了 POEM 的新学习方法，用于学习结构化输出预测的随机线性规则。

Feb, 2015

基于 Bandit 反馈的高效反事实学习

本文考虑利用离线估计器从上下文 bandit 算法生成的日志数据中获取期望奖励最有效的离线评估和优化方式，我们的估计器在广告设计方面得到了应用，证明了我们对标准估计器的方差降低是有效的。

Sep, 2018

学习排序的悲观离线策略优化

本文研究基于数据采集的 “离线学习” 在推荐系统中的应用，提出了基于点击模型的悲观离线排序学习方法，经过实验和分析表明其优越性和通用性。

Jun, 2022

自学对话系统中缺陷行为的可扩展和安全修复

本文提出了一种基于历史回归事故报告的高精度数据样本的培育和利用方法，以在在线部署之前验证、保护并改进政策，解决 Off-Policy 强化学习在大规模商业设置中难以平衡政策改进和经验连续性的问题，并提高了对话系统的用户满意度。

May, 2023

强化学习中有解释的离线策略评估：突出具有影响力的状态转移

本文提出了一种混合人工智能系统的方法，该方法可以通过关注数据中对 OPE 估计产生很大影响的观察点，并制定一组选择规则，使领域专家能够分析 OPE 估计的有效性。该方法可以应用在医学模拟和真实世界中的重症监护数据中，可以用于识别评估过程中的限制并使评估更加稳健。

Feb, 2020

半离线策略评估的反事实增强重要性采样

在高风险领域应用强化学习中，使用观察数据进行定量和定性评估可以帮助从业者了解新策略的泛化性能。然而，这种离线数据评估受到困限，因为离线数据可能无法反映由新策略应用导致的分布偏移。本研究中，我们提出了一种半离线评估框架，作为离线和在线评估之间的中间步骤，其中人工用户提供未观察到的反事实轨迹的注释。我们设计了一族基于重要性采样和新颖加权方案的离线数据评估估计器，其能够纳入反事实注释而不引入额外偏差。通过理论分析，我们展示了该方法在减少偏差和方差方面相对于标准重要性采样估计器的潜在优势。在一系列概念验证实验中，涉及赌博机和医疗模拟器，我们证明了我们的方法优于纯离线重要性采样估计器，并且对于不完美的注释具有鲁棒性。结合人性化的注释收集策略，我们的框架可以实现强化学习在高风险领域的应用。

Oct, 2023

非合作博弈中人类决策预测：基于模拟的脱机评估

本文研究基于自然语言的说服游戏中的 off-policy evaluation (OPE) 问题，并提出了一种利用真实交互和模拟数据相结合的深度学习训练算法，显著提高了模型性能，同时证明了真实交互和模拟数据结合是一种具有成本效益和可扩展性的 OPE 解决方案。

May, 2023

从观测数据中学习最优策略

本文通过控制实验方法和观察性数据建立了最优决策的理论模型，并利用域对抗神经网络的方法进行决策选择，从而在处理缺失反事实和选择偏差方面取得了较好的效果。

Feb, 2018