反事实学习排序的加速收敛

SIGIRMay, 2020

Accelerated Convergence for Counterfactual Learning to Rank

Rolf Jagerman, Maarten de Rijke

TL;DR本文提出了一种名为 CounterSample 的新型学习算法，通过 Inverse Propensity Scoring 和 Stochastic Gradient Descent 解决 Counterfactual Learning to Rank 中导致收敛速度慢的 IPS weights 问题，同时在多个 biased LTR scenarios 中具有更快的收敛速度和更好的表现。

Abstract

counterfactual learning to rank (LTR) algorithms learn a ranking model from logged user interactions, often collected using a production system. Employing such an offline learning approach has many benefits compared to an online one, but it is challenging as user feedback often contain

counterfactual learning to rank inverse propensity scoring stochastic gradient descent countersample biased ltr scenarios

发现论文，激发创造

当倒数权重法无效时：用仿射校正进行无偏置排序学习

研究了点击偏见与信任偏见的存在，提出了一种基于仿射修正的估算器，该估算器是目前唯一被证明能够去除二者影响的，并利用半合成实验证明在消除这些偏见的情况下，CLTR 可以更接近最佳排名系统。

Aug, 2020

面向前 k 名排名的策略感知无偏学习排序

本文介绍的计数事实学习 (LTR) 方法，使用包含交互偏差的已记录的用户交互来优化排名系统，通过引入一种新的策略感知的计数事实估计器，该方法可以适应随机记录策略的影响。同时，本文中还提出了一些传统 LTR 方法的新扩展方法，用于执行计数事实 LTR 并优化 top-k 评估指标，这些贡献介绍了首个可以应用于搜索和推荐中的非偏置 LTR 方法。

May, 2020

基于曝光的风险最小化的反事实学习排序的安全部署

提出了一种新的风险感知的 CLTR 方法，使用了风险正则化来保证排名模型相对于安全模型的一致性，从而大大降低了模型部署的风险。经实验证明，该方法可以有效避免在数据量较少时出现性能下降的情况，并在收敛后保持高性能，为 CLTR 领域提供了更安全的模型部署方法。

Apr, 2023

无偏学习排序：反事实和在线方法

这篇论文讨论了无偏学习排名（LTR）中的两种方法论：对联合 LTR 和在线 LTR，介绍了它们的差异和对用户体验和学习的影响，并提供了选择适当方法的实践指南。

Jul, 2019

统一在线学习和反事实学习进行排序

通过介入感知估计器建议一种优化基于用户交互的排名系统的新方法，以消除位置偏差、信任偏差和项目选择偏差。实验结果表明，相比现有方法，该新方法可以更有效地受益于在线干预。

Dec, 2020

具有偏差反馈的无偏学习排序

通过对因果推断框架的提出，使用倾向权重排序支持向量机从隐式反馈学习，消除了数据偏差问题，取得了更好的结果。

Aug, 2016

建模还是干预：从用户交互中比较反事实和在线学习排序

本研究对 LTR 领域的两种方法进行了第一次直接比较。研究结果表明，这两种方法在不同实验条件下性能存在显著差异，对于选择哪一种方法，需要考虑选择偏差、位置偏差和交互噪声的程度。

Jul, 2019

对反事实学习排序模型的鲁棒性进行的可复制性研究

通过广泛的基于仿真的实验，探究了现有的反事实学习排序模型在复杂和多样化情境下的稳健性，并发现 DLA 模型和 IPS-DCM 在各种仿真设置下展现出更好的稳健性，而 IPS-PBM 和 PRS 则较为脆弱；此外，当生产排序器具有较高的排序性能或存在一定的随机性时，现有的反事实学习排序模型往往无法超越简单的点击基准，因此迫切需要开发适用于这些情境的新的反事实学习排序算法。

Apr, 2024

基于混合的纠正方法用于反事实学习排序中的位置偏差和信任偏差

提出了一种新的无需基于相关性估计的基于混合分布的校正方法 ——MBC。实验证明，MBC 在某些情况下优于目前最先进的位置和信任偏差校正方法 ——AC，而在其他情况下表现相当。此外，与 AC 相比，MBC 的训练时间效率提高了数个数量级。

Aug, 2021

排名公平性的政策学习

本文提出了一种利用随机排序策略来进行公平学习及考虑排序项影响的通用 LTR 框架，并通过基于政策梯度方法的 Fair-PG-Rank 算法进行优化，可在保持曝光公平性的情况下优化各种效用指标。通过实验结果验证了此方法在个人和集体公平性方面的有效性。

Feb, 2019