统一在线学习和反事实学习进行排序

WSDMDec, 2020

统一在线学习和反事实学习进行排序

Unifying Online and Counterfactual Learning to Rank

Harrie Oosterhuis, Maarten de Rijke

TL;DR通过介入感知估计器建议一种优化基于用户交互的排名系统的新方法，以消除位置偏差、信任偏差和项目选择偏差。实验结果表明，相比现有方法，该新方法可以更有效地受益于在线干预。

Abstract

optimizing ranking systems based on user interactions is a well-studied problem. State-of-the-art methods for optimizing ranking systems b

optimizing ranking systems user interactions online/counterfactual ltr intervention-aware estimator position bias

发现论文，激发创造

建模还是干预：从用户交互中比较反事实和在线学习排序

本研究对 LTR 领域的两种方法进行了第一次直接比较。研究结果表明，这两种方法在不同实验条件下性能存在显著差异，对于选择哪一种方法，需要考虑选择偏差、位置偏差和交互噪声的程度。

Jul, 2019

无偏学习排序：反事实和在线方法

这篇论文讨论了无偏学习排名（LTR）中的两种方法论：对联合 LTR 和在线 LTR，介绍了它们的差异和对用户体验和学习的影响，并提供了选择适当方法的实践指南。

Jul, 2019

面向前 k 名排名的策略感知无偏学习排序

本文介绍的计数事实学习 (LTR) 方法，使用包含交互偏差的已记录的用户交互来优化排名系统，通过引入一种新的策略感知的计数事实估计器，该方法可以适应随机记录策略的影响。同时，本文中还提出了一些传统 LTR 方法的新扩展方法，用于执行计数事实 LTR 并优化 top-k 评估指标，这些贡献介绍了首个可以应用于搜索和推荐中的非偏置 LTR 方法。

May, 2020

无偏学习排序：在线或离线？

本文通过对无偏学习进行形式化的定义，指出现有的离线无偏学习和在线排序学习算法只是同一问题的两个方面。研究人员进一步对 6 种现有的无偏学习算法进行了评估，并发现其中大部分算法都可以在离线和在线环境下使用，而且有一定的应用前景。

Apr, 2020

对反事实学习排序模型的鲁棒性进行的可复制性研究

通过广泛的基于仿真的实验，探究了现有的反事实学习排序模型在复杂和多样化情境下的稳健性，并发现 DLA 模型和 IPS-DCM 在各种仿真设置下展现出更好的稳健性，而 IPS-PBM 和 PRS 则较为脆弱；此外，当生产排序器具有较高的排序性能或存在一定的随机性时，现有的反事实学习排序模型往往无法超越简单的点击基准，因此迫切需要开发适用于这些情境的新的反事实学习排序算法。

Apr, 2024

学习排序系统中的选择偏差校正

该研究考虑推荐系统中的不同偏差对算法性能的影响，提出新的反事实方法以解决位置和选择偏差，实验证明这些方法对噪声更具鲁棒性并具有更高精确度。

Jan, 2020

反事实学习排序的加速收敛

本文提出了一种名为 CounterSample 的新型学习算法，通过 Inverse Propensity Scoring 和 Stochastic Gradient Descent 解决 Counterfactual Learning to Rank 中导致收敛速度慢的 IPS weights 问题，同时在多个 biased LTR scenarios 中具有更快的收敛速度和更好的表现。

May, 2020

推荐系统的离线 A/B 测试

本文介绍了基于历史数据的线下评估方法，计算新推荐系统版本可能带来的收益提升，提供对实际环境下偏差建模的反事实估计量的变量，通过在线广告个性化产品推荐引起商业指标相关性的商业实验来检验这些估计值。

Jan, 2018

具有偏差反馈的无偏学习排序

通过对因果推断框架的提出，使用倾向权重排序支持向量机从隐式反馈学习，消除了数据偏差问题，取得了更好的结果。

Aug, 2016

克服在线学习排名中的先验错误规定

在线学习排序的领域，Bayesian ranking bandit algorithms 已被证明可以使用先前的知识来提高效能。本文提出并分析了自适应的算法，解决了现有工作需要匹配真实先验的主要局限性，并将这些结果扩展到线性和广义线性模型。此外，我们还考虑点击反馈措施，并通过合成和现实世界实验证明了我们算法的有效性。

Jan, 2023