本文考虑了带障碍的多臂赌博机问题中,包含组合优化的情况下解决局部最优策略的方法。我们扩展了现有模型,使得多个手臂可以按照可行性约束同时进行决策。本文提出了一种自然的贪心算法,并针对其在多种情况下的表现给出了严格的理论保证。
May, 2021
研究多臂赌博问题下的多次试验和预算约束的拓展,提出上置信区间和 Exp3 算法的具体实现及其性能分析。
Nov, 2017
我们提出了一种新的攻击策略,在随机多臂赌博问题中,通过操纵 UCB 原则来引导其选择一些次优的目标臂,攻击成本的累计代价随轮数的增加而增长,上界与下界相差一个 loglogT 的因子,因此我们的攻击接近最优。
Aug, 2020
提出了一个非平稳随机 bandit 模型及其评估算法,对比了该算法和 UCB 方法的优越性,从而能够有效地解决音乐推荐中的问题。
Oct, 2019
该研究提出了一种通用的组合多臂赌博问题框架,将未知分布的基础臂组成超级臂进行玩耍,进一步探讨了更多可能基于已激发臂的结果触发概率的扩展,旨在通过在线学习算法实现最小化(α,β)- 逼近遗憾。
Jul, 2014
本文研究了多臂赌博机问题在网络上的去中心化协作,采用加速一致性过程来计算所有智能体对每个臂的平均奖励,该算法采用上置信区间来决策,能够达到更好的回归界,同时不需要过多的底层网络信息。
Oct, 2018
本文研究基于多维随机向量臂收益的赌博机问题,证明了在解决特定问题时使用相应的相位策略可以达到最优的累计遗憾和贝叶斯风险,并提出了针对通用问题的近似最优解。
Dec, 2008
该论文提出了一种新的多臂赌博机框架,在该框架下将 K-armed bandit 问题转化为 C+1-armed 问题。通过利用该框架下的广义上限置信区间算法可以降低算法的遗憾量,以实现一定的算法性能优势。
Aug, 2018
本文提出了一种适用于多臂赌博机问题的解决方案,只需要以线性时间复杂度存储未知参数,可以处理一般的掌握参数相关性的问题,并用于对网络中的最大权匹配、最短路径及最小生成树计算问题的解决。
Nov, 2010
研究了去中心化多智能体多臂赌博问题,使用随机图来优化整个系统的综合悔恨度,引入了新的算法框架,其中包含加权技巧和上置信边界方法,算法具有较好的鲁棒性,并且考虑了图随机性,同时给出了不同命题下的悔恨度的上限。
Jun, 2023