理解百度-ULTR日志策略对双塔模型的影响

Sep, 2024

理解百度-ULTR日志策略对双塔模型的影响

Understanding the Effects of the Baidu-ULTR Logging Policy on Two-Tower Models

Morris de Haan, Philipp Hager

TL;DR本研究针对双塔模型在无偏学习排序任务中的日志策略混淆问题，探讨其在真实世界数据集百度-ULTR上的应用。研究发现，尽管存在潜在的混淆问题，但对双塔模型的影响并不显著，同时指出专家注释与用户点击行为之间存在潜在不匹配，填补了理论与实践之间的空白。

Abstract

Despite the popularity of the two-tower model for unbiased learning to rank (ULTR) tasks, recent work suggests that it suffers from a major limitation that could lead to its collapse in industry applications: the problem of →

发现论文，激发创造

具有偏差反馈的无偏学习排序

通过对因果推断框架的提出，使用倾向权重排序支持向量机从隐式反馈学习，消除了数据偏差问题，取得了更好的结果。

Aug, 2016

无偏学习排序：在线或离线？

本文通过对无偏学习进行形式化的定义，指出现有的离线无偏学习和在线排序学习算法只是同一问题的两个方面。研究人员进一步对6种现有的无偏学习算法进行了评估，并发现其中大部分算法都可以在离线和在线环境下使用，而且有一定的应用前景。

Apr, 2020

一个大规模的搜索数据集，用于无偏见的学习排序

介绍了一个新的数据集Baidu-ULTR和基准ULTR算法在其上的性能，有利于长尾查询的排名和排名的预训练任务。

Jul, 2022

整页无偏学习排序

该文提出针对搜索结果页面展示的选择偏见问题的整体无偏学习排名问题，并介绍了一个自动发现和减轻多个 SERP 功能偏见的偏见无关整页无偏排序算法 BAL。

Oct, 2022

无偏学习排序的基础与应用的最新进展

本教程介绍了无偏学习排序（ULTR）领域的核心概念和最新发展，包括其方法的若干应用以及在排序公平性方面的相关连接，旨在为对开发新的ULTR解决方案或在实际应用中利用ULTR方法感兴趣的研究人员和产业从业者提供帮助。

May, 2023

离线推荐系统在未观察到的混杂下的评估

此研究聚焦在推荐系统中存在未观察到的混淆因素时进行离线政策估计，强调了由于混淆因素导致的统计偏差问题，并探讨了可能的研究方向以减轻其影响。

Sep, 2023

识别性问题：揭示偏向的学习排序中隐藏的可恢复条件

应用无偏学习排序(Unbiased Learning to Rank, ULTR)于训练基于偏差点击日志的无偏排序模型，在明确用户行为生成过程并根据检验假设拟合点击数据的基础上，研究发现点击数据完美拟合时可以恢复真实潜在相关性，但实际上并非总能实现，从而导致排序性能明显降低。本研究旨在解决当数据集的图连通性被破坏时，从点击数据恢复真实相关性的问题，并提出了节点干预和节点合并两种方法来修正数据集并恢复图连通性，通过仿真数据集和两个LTR基准数据集的实证结果验证了我们提出的定理的有效性，同时证明了在相关性模型不可辨识时我们的方法在减轻数据偏差方面的有效性。

Sep, 2023

无偏学习排名遇到现实：来自百度大规模搜索数据集的教训

通过对百度搜索引擎的实时数据集开展实证研究，发现无偏学习排序技术在点击预测方面有明显的性能提升，但这并不转化为在专家相关性标注中的排名性能改进，表明结论在很大程度上取决于基准评估方法。

Apr, 2024

对反事实学习排序模型的鲁棒性进行的可复制性研究

通过广泛的基于仿真的实验，探究了现有的反事实学习排序模型在复杂和多样化情境下的稳健性，并发现DLA模型和IPS-DCM在各种仿真设置下展现出更好的稳健性，而IPS-PBM和PRS则较为脆弱；此外，当生产排序器具有较高的排序性能或存在一定的随机性时，现有的反事实学习排序模型往往无法超越简单的点击基准，因此迫切需要开发适用于这些情境的新的反事实学习排序算法。

Apr, 2024

含上下文的双重学习算法与列表蒸馏用于无偏学习排序

本研究针对现有无偏学习排序（ULTR）方法在真实点击数据上效果不明的问题，提出了一种通过列表蒸馏的含上下文双重学习算法（CDLA-LD），旨在同时解决位置偏差和上下文偏差。实验结果表明，该方法能有效提高排序模型的泛化能力，具有重要的应用潜力。

Aug, 2024