Nov, 2023

基于位置的点击模型的强盗学习排序:个性化和均等待遇

TL;DR提出了第一个通用MAB框架来捕捉在线学习排序(ONL2R)和基于位置点击模型的所有关键要素,并开发了基于贪婪和UCB算法的统一策略(GreedyRank和UCBRank),分别适用于个性化和相等的排序处理,证明了这两个算法在不同问题设置下的高效性。