面向前 k 名排名的策略感知无偏学习排序

SIGIRMay, 2020

面向前 k 名排名的策略感知无偏学习排序

Policy-Aware Unbiased Learning to Rank for Top-k Rankings

Harrie Oosterhuis, Maarten de Rijke

TL;DR本文介绍的计数事实学习 (LTR) 方法，使用包含交互偏差的已记录的用户交互来优化排名系统，通过引入一种新的策略感知的计数事实估计器，该方法可以适应随机记录策略的影响。同时，本文中还提出了一些传统 LTR 方法的新扩展方法，用于执行计数事实 LTR 并优化 top-k 评估指标，这些贡献介绍了首个可以应用于搜索和推荐中的非偏置 LTR 方法。

Abstract

counterfactual learning to Rank (LTR) methods optimize ranking systems using logged user interactions that contain interaction biases. Existing methods are only unbiased if users are presented with all relevant i

counterfactual learning ranking systems policy-aware estimator top-k feedback ltr methods

发现论文，激发创造

统一在线学习和反事实学习进行排序

通过介入感知估计器建议一种优化基于用户交互的排名系统的新方法，以消除位置偏差、信任偏差和项目选择偏差。实验结果表明，相比现有方法，该新方法可以更有效地受益于在线干预。

Dec, 2020

无偏学习排序：反事实和在线方法

这篇论文讨论了无偏学习排名（LTR）中的两种方法论：对联合 LTR 和在线 LTR，介绍了它们的差异和对用户体验和学习的影响，并提供了选择适当方法的实践指南。

Jul, 2019

排名公平性的政策学习

本文提出了一种利用随机排序策略来进行公平学习及考虑排序项影响的通用 LTR 框架，并通过基于政策梯度方法的 Fair-PG-Rank 算法进行优化，可在保持曝光公平性的情况下优化各种效用指标。通过实验结果验证了此方法在个人和集体公平性方面的有效性。

Feb, 2019

建模还是干预：从用户交互中比较反事实和在线学习排序

本研究对 LTR 领域的两种方法进行了第一次直接比较。研究结果表明，这两种方法在不同实验条件下性能存在显著差异，对于选择哪一种方法，需要考虑选择偏差、位置偏差和交互噪声的程度。

Jul, 2019

反事实学习排序的加速收敛

本文提出了一种名为 CounterSample 的新型学习算法，通过 Inverse Propensity Scoring 和 Stochastic Gradient Descent 解决 Counterfactual Learning to Rank 中导致收敛速度慢的 IPS weights 问题，同时在多个 biased LTR scenarios 中具有更快的收敛速度和更好的表现。

May, 2020

具有偏差反馈的无偏学习排序

通过对因果推断框架的提出，使用倾向权重排序支持向量机从隐式反馈学习，消除了数据偏差问题，取得了更好的结果。

Aug, 2016

学习排序系统中的选择偏差校正

该研究考虑推荐系统中的不同偏差对算法性能的影响，提出新的反事实方法以解决位置和选择偏差，实验证明这些方法对噪声更具鲁棒性并具有更高精确度。

Jan, 2020

对反事实学习排序模型的鲁棒性进行的可复制性研究

通过广泛的基于仿真的实验，探究了现有的反事实学习排序模型在复杂和多样化情境下的稳健性，并发现 DLA 模型和 IPS-DCM 在各种仿真设置下展现出更好的稳健性，而 IPS-PBM 和 PRS 则较为脆弱；此外，当生产排序器具有较高的排序性能或存在一定的随机性时，现有的反事实学习排序模型往往无法超越简单的点击基准，因此迫切需要开发适用于这些情境的新的反事实学习排序算法。

Apr, 2024

公平且无偏的排名函数的策略梯度训练

本文提出了一种能够同时解决学习算法固有的和训练数据中的算法和应用中置入偏见的公平性问题的排序方法，采用一类延迟策略梯度方法，即采用公平度量的代价函数，并针对所需的应用程序选择一类的 “平均公平度量” 选择公平度量，有效地使学习算法能够处理包含偏差和噪声的数据，并通过对算法进行实证研究证明其能够获得准确而公平的排序策略。

Nov, 2019

面向使用人类反馈进行离线策略排序的强化学习

本文提出了一种新的离线值排名 (VR) 算法，可以在统一的期望最大化 (EM) 框架中同时最大化用户的长期回报和优化排名度量，以提高样本效率。理论和实证研究表明，EM 过程指导了学习策略，从而在没有任何在线交互的情况下享受未来回报和排名度量的优势。广泛的离线和在线实验证明了我们方法的有效性。

Jan, 2024