具有多次游戏和预算限制的多臂赌博机

Nov, 2017

Budget-Constrained Multi-Armed Bandits with Multiple Plays

Datong P. Zhou, Claire J. Tomlin

TL;DR研究多臂赌博问题下的多次试验和预算约束的拓展，提出上置信区间和 Exp3 算法的具体实现及其性能分析。

Abstract

We study the multi-armed bandit problem with multiple plays and a budget constraint for both the stochastic and the adversarial setting. A

发现论文，激发创造

本文研究了随机预算多臂赌博问题，并提出了一种名为 ω-UCB 的新的上置信界（UCB）采样策略，该策略使用了不对称置信区间，并表明该方法具有对数遗憾且在合成和真实设置中始终优于现有策略。

Jun, 2023

考虑到重复使用某些选项可能是不可取的或不可行的，本文提出了一种新颖的随机多臂赌博机设置，并通过映射到 PINWHEEL 调度问题证明了问题的优化累积奖励不允许有伪多项式时间算法，但它设计了一种贪婪算法和一种基于 UCB 的算法，具有一定的优异性。

Jul, 2019

本文研究了多臂赌博机问题在网络上的去中心化协作，采用加速一致性过程来计算所有智能体对每个臂的平均奖励，该算法采用上置信区间来决策，能够达到更好的回归界，同时不需要过多的底层网络信息。

Oct, 2018

研究了在自利的情况下，三种常见的赌博算法 UCB, ε-Greedy 和 Thompson Sampling 对策略行为的适应性，为应用于经济学中的推荐系统提供了鲁棒的工具。

Jun, 2019

本文研究基于多维随机向量臂收益的赌博机问题，证明了在解决特定问题时使用相应的相位策略可以达到最优的累计遗憾和贝叶斯风险，并提出了针对通用问题的近似最优解。

Dec, 2008

本文讨论在不确定性的情况下如何在多臂老虎机问题中进行赌博，提出了一种正式的处理方法，并建立了不同类型的奖励变化和最小化遗憾之间的直接联系。

May, 2014

研究一种新颖的多臂赌博问题，旨在解决公司在探索最大化收益新策略的同时，保持其收益在固定时间内持续增长的挑战。通过提出自然而又新颖的策略来维护限制，我们在随机和对抗设置下分析了限制维护的代价。

Feb, 2016

本文在经典赌博机问题的基础上提出了一个多智能体变种，旨在学会对赌臂进行公平分配并利用纳什社会福利来衡量它的公平性，设计了三个多智能体变种的算法并证明其实现了次线性的损失纳什社会福利，因此可以对合理的互惠性展现出更大的感受。

Jul, 2020

本文研究了一种多保真度赌博机的变体，提出了一种名为 MF-UCB 的新型上置信区间过程，并证明了它在序列逐渐的逼近中适应性更好，并且达到了比忽略近似的策略更好的遗憾最小化效果。

Oct, 2016

研究了多臂赌博问题中的探索和利用问题，并提出了一种基于非均匀采样策略的算法，用于解决带有分段稳定随机赌博问题的情况，并实现了对于超宽带通道选择的模拟测试。

May, 2012