基于曝光的风险最小化的反事实学习排序的安全部署

SIGIRApr, 2023

基于曝光的风险最小化的反事实学习排序的安全部署

Safe Deployment for Counterfactual Learning to Rank with Exposure-Based Risk Minimization

Shashank Gupta, Harrie Oosterhuis, Maarten de Rijke

TL;DR提出了一种新的风险感知的 CLTR 方法，使用了风险正则化来保证排名模型相对于安全模型的一致性，从而大大降低了模型部署的风险。经实验证明，该方法可以有效避免在数据量较少时出现性能下降的情况，并在收敛后保持高性能，为 CLTR 领域提供了更安全的模型部署方法。

Abstract

counterfactual learning to rank (CLTR) relies on exposure-based inverse propensity scoring (IPS), a LTR-specific adaptation of IPS to correct for position bias. While IPS can provide unbiased and consistent estimates, it often suffers from high variance. Especially when little click da

counterfactual learning to rank inverse propensity scoring risk-aware cltr risk regularization safe deployment

发现论文，激发创造

当倒数权重法无效时：用仿射校正进行无偏置排序学习

研究了点击偏见与信任偏见的存在，提出了一种基于仿射修正的估算器，该估算器是目前唯一被证明能够去除二者影响的，并利用半合成实验证明在消除这些偏见的情况下，CLTR 可以更接近最佳排名系统。

Aug, 2020

对反事实学习排序模型的鲁棒性进行的可复制性研究

通过广泛的基于仿真的实验，探究了现有的反事实学习排序模型在复杂和多样化情境下的稳健性，并发现 DLA 模型和 IPS-DCM 在各种仿真设置下展现出更好的稳健性，而 IPS-PBM 和 PRS 则较为脆弱；此外，当生产排序器具有较高的排序性能或存在一定的随机性时，现有的反事实学习排序模型往往无法超越简单的点击基准，因此迫切需要开发适用于这些情境的新的反事实学习排序算法。

Apr, 2024

基于混合的纠正方法用于反事实学习排序中的位置偏差和信任偏差

提出了一种新的无需基于相关性估计的基于混合分布的校正方法 ——MBC。实验证明，MBC 在某些情况下优于目前最先进的位置和信任偏差校正方法 ——AC，而在其他情况下表现相当。此外，与 AC 相比，MBC 的训练时间效率提高了数个数量级。

Aug, 2021

反事实学习排序的加速收敛

本文提出了一种名为 CounterSample 的新型学习算法，通过 Inverse Propensity Scoring 和 Stochastic Gradient Descent 解决 Counterfactual Learning to Rank 中导致收敛速度慢的 IPS weights 问题，同时在多个 biased LTR scenarios 中具有更快的收敛速度和更好的表现。

May, 2020

基于级联模型的倾向性估计，用于反事实学习排序

本文提出了一种针对级联点击模式（CM）场景下的倾向性估计方法（CM-IPS），该方法在用户遵循 CM 点击搜索结果并具有极高表现的情况下，能使 CLTR 表现保持接近于全信息量表现，同时在用户遵循 PBM（Poisson Binomial Model）情况下，该方法不仅表现不佳，反而导致更大偏差，因此需要根据历史用户点击数据来选择使用 CM-IPS 或 PBM-based 倾向性估计方法。

May, 2020

面向前 k 名排名的策略感知无偏学习排序

本文介绍的计数事实学习 (LTR) 方法，使用包含交互偏差的已记录的用户交互来优化排名系统，通过引入一种新的策略感知的计数事实估计器，该方法可以适应随机记录策略的影响。同时，本文中还提出了一些传统 LTR 方法的新扩展方法，用于执行计数事实 LTR 并优化 top-k 评估指标，这些贡献介绍了首个可以应用于搜索和推荐中的非偏置 LTR 方法。

May, 2020

具有偏差反馈的无偏学习排序

通过对因果推断框架的提出，使用倾向权重排序支持向量机从隐式反馈学习，消除了数据偏差问题，取得了更好的结果。

Aug, 2016

贝叶斯对抗性风险最小化

提供了一种贝叶斯视角的数学方法，支持使用 logged bandit feedback 进行离线学习，提出了一种新的 generalization bound 来估算社会可接受的风险，并引入了一种新的正则化技术来避免过拟合。

Jun, 2018

点击率预测的置信度排名

本文提出了一种名为 “置信度排名” 的新型框架，使用两个不同的模型以排名函数的形式设计优化目标，允许针对不同凸代理函数的评估指标进行直接优化，例如 AUC 和 Accuracy。实验结果表明，引入置信度排名损失后，可以在公共和工业数据集的 CTR 预测任务上胜过所有基线，该框架已在 JD.com 的广告系统中部署以提高精细排名阶段的主要流量表现。

Jun, 2023

解决离线推荐学习中的倾向性矛盾问题

本研究探讨了在选择偏差存在的情况下从明确评分反馈进行离线推荐学习的方法，在推荐偏差的解决方案中，逆偏重评分（IPS）估计是一个当前很有前途的解决方案，但基于倾向性的现有方法的性能会受到倾向性估计偏差的显着影响。因此，我们提出了一种新的算法，该算法通过对抗学习来最小化理论上的偏差，以达到在实际情况中优于一系列现有方法的效果。

Oct, 2019