特征中的位置偏差

Feb, 2024

Position bias in features

Richard Demsyn-Jones

TL;DR本文介绍了排名系统中模拟文档相关性的目的，并测试了几个特征的性质。将逆倾向权重方法用于文档可创建不偏的文档相关性估计特征，该特征可以准确地近似相关性，在理想情况下实现接近最佳的排名。然而，此特征具有较高的方差，且方差随着位置偏差的增加而增加。不准确的位置偏差估计导致性能下降。本文强调了准确估计位置偏差的必要性，并独特地提出了同时使用有偏和无偏位置偏差特征的建议。

Abstract

The purpose of modeling document relevance for search engines is to rank better in subsequent searches. Document-specific historical click-through rates can be important features in a dynamic →

document relevance ranking system click-through rates position bias estimation biased and unbiased features

发现论文，激发创造

估计位置偏差，无需干扰干预

本文介绍了一种在不涉及人工参照或限制相关性建模假设的前提下，从历史反馈日志中收集一种特定类型的干预数据并使用极值估计器以获得一致倾向性估计的方法，该方法在 Arxiv 全文搜索和谷歌 Drive 搜索等两个实际系统中提供了更好的倾向性估计。

Dec, 2018

学习排序系统中的选择偏差校正

该研究考虑推荐系统中的不同偏差对算法性能的影响，提出新的反事实方法以解决位置和选择偏差，实验证明这些方法对噪声更具鲁棒性并具有更高精确度。

Jan, 2020

知识蒸馏下的位置偏差建模思考与 CTR 预测

提出一种基于知识蒸馏的简单而高效的方法，以缓解位置偏差的影响，利用位置信息来提高 CTR 预测性能。在真实世界的生产数据集和在线 A/B 测试中，该方法取得了显著的性能改善，并已在全球最大电商平台的主要流量服务中部署。

Apr, 2022

基于语境的考察偏倚估计的干预收集

提出了一种基于上下文的地位模型（CPBM），使考试偏见可能依赖于描述查询和用户的上下文向量，并基于干预收获提出了有效的 CPBM 估计器，用于从搜索引擎和推荐系统的隐式反馈中进行无偏学习排序。在 ArXiv 搜索引擎上进行的实际实验以及在 Yahoo Learning-To-Rank 数据集上进行的半合成实验表明了新方法的优越性和鲁棒性。

Nov, 2018

具有偏差反馈的无偏学习排序

通过对因果推断框架的提出，使用倾向权重排序支持向量机从隐式反馈学习，消除了数据偏差问题，取得了更好的结果。

Aug, 2016

信息检索中的索引偏见的测量和应对

信息检索系统的相关性排序可能引入指示偏见，该研究引入了自动偏见审核框架（PAIR framework）和偏见度量（bias metric），通过对 8 个信息检索系统进行评估，在一系列有争议的主题中，验证了指示偏见如何影响读者意见的预测。

Jun, 2024

不点击就代表不相关吗？倾向比分数作为纠正

该论文提出了一个新的加权方案 Propensity Ratio Scoring（PRS），通过对点击和非点击的处理来纠正 LTR 中引入的偏差，避免 LTR 训练中不必要的文档比较，从而保证更有效地利用单击数据并在 LTR 训练中实现改进的性能。

May, 2020

随机化最小侵入式采集点击记录中的无偏好好处

通过处理搜索结果展示方式，消除展示偏见获取更客观的用户隐式反馈，取得更佳的排序效果。

May, 2006

问答系统中的位置偏差

本研究发现在训练集中，答案位置分布呈高度偏斜时，使用位置预测作为答案的提取型问答模型容易学习到虚假的位置线索，并且在不同位置上无法提供正确的答案。因此，对于 BiDAF 和 BERT 等受到位置偏见影响的模型，我们实现了多种消除位置偏见的方法，发现使用答案先验分布作为偏见模型非常有效，在受到偏见的 SQuAD 数据集上，BERT 性能从 37.48% 提高到 81.64%。

Apr, 2020

公平排名中相关性的作用

本文探讨了线上平台提供的机会接触机制，阐述了其中的公平性问题，分析了评估排序指标时需要考虑的多个要素，结合一个案例研究证明了当前基于用户点击反馈的排序指标无法满足所有要求，为实现公平排序指标提供了新的思路。

May, 2023