基于位置模型的多次游戏赌博机

Jun, 2016

Multiple-Play Bandits in the Position-Based Model

Paul Lagrée, Claire Vernade, Olivier Cappé

TL;DR通过使用基于位置的点击模型（PBM），利用可用的显示位置偏差信息，并提供新的遗憾下限和计算上有效的算法来解决多位置展示或列表中根据用户反馈顺序学习放置项目的问题。

Abstract

Sequentially learning to place items in multi-position displays or lists is a task that can be cast into the multiple-play semi-bandit setting. However, a major concern in this context is when the system cannot d

sequential learning multi-position displays semi-bandit position-based click model regret lower bound

发现论文，激发创造

基于位置模型的多臂赌博反馈排序学习

本文介绍了一种基于多臂老虎机算法和位置点击模型的方法，用于解决线上系统中推荐排名的偏见问题，并在合成和实际数据集的离线和在线 A/B 测试中证明了该算法的有效性。

Apr, 2020

有限模型的多臂赌博机中的连续转移

本文着重研究在线学习中的顺序迁移问题，尤其是在多臂赌博机框架中，引入了一种基于矩阵方法的赌博算法，推导出了它的遗憾界。

Jul, 2013

级联模型中的排序学习

本文介绍了一种名为级联赌博的学习算法，用于在搜索引擎结果中识别出最有吸引力的 $K$ 个页面。研究将问题表述为随机组合式部分监控问题，并提出了两种算法，CascadeUCB1 和 CascadeKL-UCB，在实验中表现良好。

Feb, 2015

基于位置的点击模型的强盗学习排序：个性化和均等待遇

提出了第一个通用 MAB 框架来捕捉在线学习排序（ONL2R）和基于位置点击模型的所有关键要素，并开发了基于贪婪和 UCB 算法的统一策略（GreedyRank 和 UCBRank），分别适用于个性化和相等的排序处理，证明了这两个算法在不同问题设置下的高效性。

Nov, 2023

级联强化学习

在先前的研究中，瀑布式赌博未考虑用户状态和状态转换对推荐的影响，因此我们提出了一个考虑用户状态和状态转换的广义瀑布式强化学习框架。通过深入研究价值函数的属性并设计一个最优项目列表的快速查找算法，我们开发了两个算法 CascadingVI 和 CascadingBPI，它们在计算效率和样本效率上都表现出较好的结果。通过实验证明我们算法在实践中相较于现有的强化学习算法能够提供改进的计算和样本效率。

Jan, 2024

基于级联赌博机的大规模推荐问题

本研究提出了两种基于线性推广的算法来解决级联赌博问题，主要应用在推荐系统中。通过对算法的评估，发现本文算法表现较为良好，且优于所有基准算法。

Mar, 2016

DCM Bandits：多次点击学习排序

提出了一种 DCM Bandits 算法，用于利用线上学习来最大化推荐令人满意的网页，该算法是一种可行的、无遗憾的在线算法，用于学习在类似于级联点击模型中多次点击的排序问题。

Feb, 2016

具有图结构反馈的非随机多臂赌博机

本文研究了一种名为 “部分信息” 的在线学习模型，提出了多种算法，通过信息反馈结构的组合特性，给出了紧密的遗憾界限。

Sep, 2014

强制性探索在赌博问题中的应用

设计一种不使用奖励分布信息的多臂赌博机算法，通过交替应用贪婪规则与强制探索来实现显著的后悔上界，并提供不同强制探索策略下的问题依赖性后悔上界分析方法，适用于不同奖励分布的固定和分段固定设置。

Dec, 2023

高维线性赌博机和推荐系统

该研究使用线性参数化多臂赌博机模型来提高在线服务推荐新产品、视频、歌曲和广告的效果，得到了能够满足用户喜好探索和系统数据调查的解决方案，并在 Netflix 和 MovieLens 数据集上进行了测试。

Jan, 2013