克服在线学习排名中的先验错误规定

Jan, 2023

克服在线学习排名中的先验错误规定

Overcoming Prior Misspecification in Online Learning to Rank

Javad Azizi, Ofer Meshi, Masrour Zoghi, Maryam Karimzadehgan

TL;DR在线学习排序的领域，Bayesian ranking bandit algorithms 已被证明可以使用先前的知识来提高效能。本文提出并分析了自适应的算法，解决了现有工作需要匹配真实先验的主要局限性，并将这些结果扩展到线性和广义线性模型。此外，我们还考虑点击反馈措施，并通过合成和现实世界实验证明了我们算法的有效性。

Abstract

The recent literature on online learning to rank (LTR) has established the utility of prior knowledge to bayesian ranking bandit algorithms. However, a major limitation of existing work is the requirement for the

online learning bayesian ranking bandit algorithms linear and generalized models relevance feedback efficacy

发现论文，激发创造

基于位置模型的多臂赌博反馈排序学习

本文介绍了一种基于多臂老虎机算法和位置点击模型的方法，用于解决线上系统中推荐排名的偏见问题，并在合成和实际数据集的离线和在线 A/B 测试中证明了该算法的有效性。

Apr, 2020

RankFormer：采用列表标签的列表排序学习

提出使用 RankFormer 架构来从用户的绝对反馈中学习列表的总体质量并优化排序，模拟的公共数据集与 Amazon 搜索数据集的离线实验结果表明 RankFormer 优于所有基线；通过知识蒸馏可立即在在线实验中使用

Jun, 2023

基于随机点击模型的在线学习排序算法

提出了一个新的在线学习排序算法 - BatchRank，适用于广泛的点击模型，包括级联和基于位置的模型，并在 Web 搜索查询的一系列测试中性能优越。

Mar, 2017

利用点击反馈对在线学习排序进行对抗攻击

本文研究了攻击多个 OLTR 变体的策略，并提出了一般的攻击策略来攻击任何算法，在合成数据和真实数据上的实验验证了我们提出的攻击算法的有效性。

May, 2023

无偏学习排序：反事实和在线方法

这篇论文讨论了无偏学习排名（LTR）中的两种方法论：对联合 LTR 和在线 LTR，介绍了它们的差异和对用户体验和学习的影响，并提供了选择适当方法的实践指南。

Jul, 2019

排名公平性的政策学习

本文提出了一种利用随机排序策略来进行公平学习及考虑排序项影响的通用 LTR 框架，并通过基于政策梯度方法的 Fair-PG-Rank 算法进行优化，可在保持曝光公平性的情况下优化各种效用指标。通过实验结果验证了此方法在个人和集体公平性方面的有效性。

Feb, 2019

在线平台中自适应学习选择 - 排序

优化用户排序列表的算法将用户偏好和物品位置的变化考虑在内，通过上界调整预测的用户满意度分数，并选择最大化这些调整分数的排序操作，以在异质用户中个性化用户体验。该算法在实验中表现优于基线模型。

Jun, 2024

学习排序系统中的选择偏差校正

该研究考虑推荐系统中的不同偏差对算法性能的影响，提出新的反事实方法以解决位置和选择偏差，实验证明这些方法对噪声更具鲁棒性并具有更高精确度。

Jan, 2020

统一在线学习和反事实学习进行排序

通过介入感知估计器建议一种优化基于用户交互的排名系统的新方法，以消除位置偏差、信任偏差和项目选择偏差。实验结果表明，相比现有方法，该新方法可以更有效地受益于在线干预。

Dec, 2020

无偏学习排序：在线或离线？

本文通过对无偏学习进行形式化的定义，指出现有的离线无偏学习和在线排序学习算法只是同一问题的两个方面。研究人员进一步对 6 种现有的无偏学习算法进行了评估，并发现其中大部分算法都可以在离线和在线环境下使用，而且有一定的应用前景。

Apr, 2020