研究多臂赌博问题下的多次试验和预算约束的拓展,提出上置信区间和 Exp3 算法的具体实现及其性能分析。
Nov, 2017
我们考虑了一种随机多臂赌博问题的变种,其中臂是可以改善奖励或吸收奖励的战略代理。我们设计了一种机制,以鼓励在平衡状态下实现最高水平的性能,并在非平衡情况下至少获得具有最高均值的诚实代理的收入。我们还确定了一类称为性能激励的 MAB 算法,它们满足一系列性质并表明它们导致的机制在平衡状态下激励最高水平的性能并且是健壮的。
Dec, 2023
本文研究了多臂赌博机问题在网络上的去中心化协作,采用加速一致性过程来计算所有智能体对每个臂的平均奖励,该算法采用上置信区间来决策,能够达到更好的回归界,同时不需要过多的底层网络信息。
Oct, 2018
该论文研究了对多臂赌博算法进行的对抗攻击,以操纵奖励信号以控制算法选择的行动,并提出了针对常见的两种多臂赌博算法 epsilon-greedy 和 UCB 的攻击方案。这种攻击是在不知道平均奖励的情况下进行的,并且攻击者所需的努力是对问题特定参数取对数,这个参数随着赌博问题变得越来越容易攻击而变小。结果表明,攻击者可以轻松地劫持多臂赌博算法的行为,以推广或阻止某些行动。由于多臂赌博算法在实践中的使用越来越广泛,因此我们的研究揭示了一个重大的安全威胁。
我们提出了一种新的攻击策略,在随机多臂赌博问题中,通过操纵 UCB 原则来引导其选择一些次优的目标臂,攻击成本的累计代价随轮数的增加而增长,上界与下界相差一个 loglogT 的因子,因此我们的攻击接近最优。
Aug, 2020
研究了一种多臂赌博机问题的策略版本,其中每个臂是一个个体战略代理人,在拉动一个臂膀时,臂膀将获得私人奖励,并可以选择一定金额传递给主体,以使主体将奖励基金尽可能分发给臂膀。通过该研究,设计了一种算法,引导代理人提交尽可能多的私人奖励。
Jun, 2017
我们研究了多臂赌博问题的战略变体,称为战略点击赌博问题。我们设计了一种激励感知的学习算法 UCB-S,该算法实现了在不确定性下激励期望的臂行为,并且能够学习未知参数以最小化遗憾度。我们的理论结果得到了通过模拟战略臂行为进行的支持,证实了我们所提出的激励设计的有效性和鲁棒性。
Nov, 2023
考虑到重复使用某些选项可能是不可取的或不可行的,本文提出了一种新颖的随机多臂赌博机设置,并通过映射到 PINWHEEL 调度问题证明了问题的优化累积奖励不允许有伪多项式时间算法,但它设计了一种贪婪算法和一种基于 UCB 的算法,具有一定的优异性。
Jul, 2019
研究了贝叶斯多臂赌博问题的多臂区间,证明了对于設計最优策略子采样至关重要,提出了一种新型的无偿探索方法,即对奖励分布的尾事件进行无偿探索,使用模拟数据和真实数据测试后发现贪婪算法表现更佳。
Feb, 2020
提出抵御恶意攻击的新型样本中位数算法和探索辅助上限置信区间算法,并通过多个仿真和实验表明它们能够在多臂赌博机问题中实现 sublinear regret。