在线推荐中结合机制设计与强盗算法抗击标题党

Nov, 2023

在线推荐中结合机制设计与强盗算法抗击标题党

Bandits Meet Mechanism Design to Combat Clickbait in Online Recommendation

Thomas Kleine Buening, Aadirupa Saha, Christos Dimitrakakis, Haifeng Xu

TL;DR我们研究了多臂赌博问题的战略变体，称为战略点击赌博问题。我们设计了一种激励感知的学习算法 UCB-S，该算法实现了在不确定性下激励期望的臂行为，并且能够学习未知参数以最小化遗憾度。我们的理论结果得到了通过模拟战略臂行为进行的支持，证实了我们所提出的激励设计的有效性和鲁棒性。

Abstract

We study a strategic variant of the multi-armed bandit problem, which we coin the strategic click-bandit. This model is motivated by applications in online recommendation where the choice of recommended items dep

multi-armed bandit problem strategic click-bandit incentive-aware learning algorithm regret bound strategic arm behavior

发现论文，激发创造

阻断赌徒

考虑到重复使用某些选项可能是不可取的或不可行的，本文提出了一种新颖的随机多臂赌博机设置，并通过映射到 PINWHEEL 调度问题证明了问题的优化累积奖励不允许有伪多项式时间算法，但它设计了一种贪婪算法和一种基于 UCB 的算法，具有一定的优异性。

Jul, 2019

不完整信息下随机赌博机的内在鲁棒性对策略操纵

研究了在自利的情况下，三种常见的赌博算法 UCB, ε-Greedy 和 Thompson Sampling 对策略行为的适应性，为应用于经济学中的推荐系统提供了鲁棒的工具。

Jun, 2019

多臂赌博机与战略代理的鲁棒和激励性算法

我们考虑了一种随机多臂赌博问题的变种，其中臂是可以改善奖励或吸收奖励的战略代理。我们设计了一种机制，以鼓励在平衡状态下实现最高水平的性能，并在非平衡情况下至少获得具有最高均值的诚实代理的收入。我们还确定了一类称为性能激励的 MAB 算法，它们满足一系列性质并表明它们导致的机制在平衡状态下激励最高水平的性能并且是健壮的。

Dec, 2023

延迟转化的随机强化学习赌博机模型

这篇文章提出并研究了一种基于 Chapelle 的框架的新的随机多臂赌博模型，其中每种操作可能会触发一个将以随机延迟发生的未来奖励，并提供了一些性能下界和基于 UCB 和 KLUCB 框架的两个简单而有效的算法。

Jun, 2017

战略线性上下文强盗

通过研究策略性代理商操控推荐系统以最大化推荐次数的现象，我们针对线性上下文赌博问题的策略变体进行研究，其中，策略可以误报私有观察到的上下文给学习者。我们将算法设计问题视为不确定性下的机制设计问题，并提出了乐观的致命开关机制（OptGTM），激励代理商（即臂）真实报告上下文，同时最小化遗憾。我们还表明，如果不考虑代理商的策略性质，将导致线性遗憾。然而，在机制设计和遗憾最小化之间存在一种权衡，这个研究旨在提供对在线学习和机制设计交叉领域的洞察。

Jun, 2024

带预算的贝叶斯多臂赌博算法在动态广告分配中的应用

本文针对互联网广告动态分配中的预算限制，运用多臂老虎机算法进行研究，提出具有强可证性、适应性强的 UCB1 算法改进方案。

Jun, 2013

具有时延依赖收益的随机赌博机

提出了一个非平稳随机 bandit 模型及其评估算法，对比了该算法和 UCB 方法的优越性，从而能够有效地解决音乐推荐中的问题。

Oct, 2019

DCM Bandits：多次点击学习排序

提出了一种 DCM Bandits 算法，用于利用线上学习来最大化推荐令人满意的网页，该算法是一种可行的、无遗憾的在线算法，用于学习在类似于级联点击模型中多次点击的排序问题。

Feb, 2016

具有马尔可夫回报的多臂赌博机问题的在线算法

考虑带 Markov 奖励的经典多臂赌博机问题，玩一只手臂时，其状态会按 Markov 方式更改，不玩时保持冻结。玩一只手臂时，玩家会获得与状态相关的奖励，每只手臂的状态转移概率未知。我们证明在手臂的状态转移概率满足一定条件下，基于样本均值的指数策略能够在总试验次数上实现对数遗憾，同时也证明了在具有休息的 Markov 赌博机模型下，样本均值指数策略不会降低最优性。此外，对比 Anantharam 的指数策略和 UCB，我们发现通过选择一个小的探索参数 UCB 可以比 Anantharam 的指数策略拥有更小的遗憾。

Jul, 2010

基于位置的点击模型的强盗学习排序：个性化和均等待遇

提出了第一个通用 MAB 框架来捕捉在线学习排序（ONL2R）和基于位置点击模型的所有关键要素，并开发了基于贪婪和 UCB 算法的统一策略（GreedyRank 和 UCBRank），分别适用于个性化和相等的排序处理，证明了这两个算法在不同问题设置下的高效性。

Nov, 2023