基于位置的点击模型的强盗学习排序：个性化和均等待遇

Nov, 2023

基于位置的点击模型的强盗学习排序：个性化和均等待遇

Bandit Learning to Rank with Position-Based Click Models: Personalized and Equal Treatments

Tianchen Zhou, Jia Liu, Yang Jiao, Chaosheng Dong, Yetian Chen...

TL;DR提出了第一个通用MAB框架来捕捉在线学习排序（ONL2R）和基于位置点击模型的所有关键要素，并开发了基于贪婪和UCB算法的统一策略（GreedyRank和UCBRank），分别适用于个性化和相等的排序处理，证明了这两个算法在不同问题设置下的高效性。

Abstract

online learning to rank (ONL2R) is a foundational problem for recommender systems and has received increasing attention in recent years. Among the existing approaches for ONL2R, a natural modeling architecture is the mu

发现论文，激发创造

DCM Bandits：多次点击学习排序

提出了一种DCM Bandits算法，用于利用线上学习来最大化推荐令人满意的网页，该算法是一种可行的、无遗憾的在线算法，用于学习在类似于级联点击模型中多次点击的排序问题。

Feb, 2016

基于位置模型的多次游戏赌博机

通过使用基于位置的点击模型（PBM），利用可用的显示位置偏差信息，并提供新的遗憾下限和计算上有效的算法来解决多位置展示或列表中根据用户反馈顺序学习放置项目的问题。

Jun, 2016

基于随机点击模型的在线学习排序算法

提出了一个新的在线学习排序算法- BatchRank，适用于广泛的点击模型，包括级联和基于位置的模型，并在Web搜索查询的一系列测试中性能优越。

Mar, 2017

点击反馈的伯努利一级臂老虎机

该研究提出了基于位置的模型来解释用户点击搜索结果的概率，并提出了 Bernoulli rank-1 bandit 和 Rank1ElimKL 算法来解决排名问题。该算法在不同条件下的实验表现证实其较简单的对手策略更加优秀。

Mar, 2017

基于位置模型的多臂赌博反馈排序学习

本文介绍了一种基于多臂老虎机算法和位置点击模型的方法，用于解决线上系统中推荐排名的偏见问题，并在合成和实际数据集的离线和在线A/B测试中证明了该算法的有效性。

Apr, 2020

基于级联行为模型的排序策略双重稳健离线评估

提出了一种新的基于级联假设的有偏差-无方差权衡评估器来评估推荐系统中的排名策略, 在综合合成和真实数据实验中优于现有评估器。

Feb, 2022

学习排序的悲观离线策略优化

本文研究基于数据采集的“离线学习”在推荐系统中的应用，提出了基于点击模型的悲观离线排序学习方法，经过实验和分析表明其优越性和通用性。

Jun, 2022

基于强化学习的统一离线学习排序

在这篇论文中，我们利用强化学习中的离线学习技术，提出了一种与点击模型无关的通用排序方法Click Model-Agnostic Unified Off-policy Learning to Rank（CUOLR），通过将排序过程视为一个马尔可夫决策过程，实现了对各种类型的点击模型的自适应，实验结果表明，CUOLR 在不同的大规模数据集上均优于现有的基于离线学习的排序算法，并能在不同的点击模型下保持一致性和鲁棒性

Jun, 2023

在线推荐中结合机制设计与强盗算法抗击标题党

我们研究了多臂赌博问题的战略变体，称为战略点击赌博问题。我们设计了一种激励感知的学习算法UCB-S，该算法实现了在不确定性下激励期望的臂行为，并且能够学习未知参数以最小化遗憾度。我们的理论结果得到了通过模拟战略臂行为进行的支持，证实了我们所提出的激励设计的有效性和鲁棒性。

Nov, 2023

用户有限注意力的利用：失配、学习和排序

使用用户的有限注意力解决推荐系统中的长期回报偏差问题，通过在线贪心算法和多项式时间算法降低后悔度和寻优问题。

Feb, 2024