多臂赌博机问题的算法

Feb, 2014

Algorithms for multi-armed bandit problems

Volodymyr Kuleshov, Doina Precup

TL;DR本文通过对多臂赌博问题最流行的算法进行彻底的实证研究，发现在大多数情况下，简单的启发式搜索算法优于理论上较为严谨的算法。同时，各种算法的性能相对于其他算法的效果受赌博机臂数目和奖励方差的影响。此研究还模拟了一项临床试验，结果表明，智能试验可以成功治疗至少50%的患者，并显著降低不良反应和增加患者保留率。该发现证明赌博算法是当前自适应治疗分配策略的有吸引力的替代方法。

Abstract

Although many algorithms for the multi-armed bandit problem are well-understood theoretically, empirical confirmation of their effectiveness is generally scarce. This paper presents a thorough empirical study of

发现论文，激发创造

上下文臂机问题的大部分无需探索算法

证明了当观察到的上下文具有足够的随机性时，贪心算法可以达到速率最优，并介绍了一种新的算法 Greedy-First，该算法仅使用观察到的上下文和奖励来确定是否按照贪心策略或探索策略，同时证明该算法在没有对上下文分布或手臂数量做任何其他假设的情况下具有速率最优的性质，并大量模拟结果表明，Greedy-First成功地减少了探索并优于现有的基于Exploration的上下文bandit算法，如Thompson sampling或upper confidence bound（UCB）。

Apr, 2017

武装手臂赌徒

研究了控制组非合规性对多臂老虎机模型的影响，提出了仪器武装贝叶斯问题，并针对该问题开发出新的算法，证明了新算法的效果，并将其与标准多臂老虎机算法进行比较。

May, 2017

多臂匪徒设计在剂量寻找临床试验中的应用

本文通过多臂赌博算法分析了在临床试验提前阶段寻找最佳剂量的问题，提出用Thompson Sampling原则作为算法实现。使用基于先验分布的Thompson Sampling算法在一些I期或I/II期试验中发现其表现优异。

Mar, 2019

多臂赌博机与情境赌博机的实际应用调查

该研究详细回顾了多臂赌博框架在各种应用领域上的最新前沿发展，例如推荐系统、信息检索、医疗保健和金融等，同时提供了未来该领域的重要趋势和新视角。

Apr, 2019

折叠赌博算法及其在公共卫生干预中的应用

提出了一种新的无休止多臂赌博机设置——Collapsing Bandits，并在医疗保健领域中实现了应用，该算法使用何维特指数技术和阈值策略来优化可观察状态数量较少、不可观察状态数量较多的多臂赌博机问题，评估了算法在多种数据分布上的性能。

Jul, 2020

多臂老虎机实验中的适应性和混淆

本篇论文研究以往文献未解决的问题，提出了一种新的基于Thompson采样的算法（被称为去混淆Thompson采样），该算法在易于稳定的情况下发挥优越效率，在困难的不稳定情况下也表现出出人意料的韧性，可在具有不稳定上下文影响的武器性能的智能探险算法中应用。

Feb, 2022

风险感知多臂老虎机调查

本综述分析了在多臂赌博机情境下，风险度量的各种措施及其特性、各种风险度量的集中不等式、风险感知的赌博问题，包括在遗憾最小化设置中的算法和在最佳臂识别设置中的纯探索问题，以及未来研究的挑战和肥沃领域。

May, 2022

具有预算信息限制的情境臂控制

文章介绍了一种结合在线Primal-dual算法和上下文强化学习算法的优化和学习算法来解决数字健康领域中的个性化治疗问题，并证明该算法具有亚线性后悔界限。

May, 2023

利用自适应赌博实验来提高和研究心理健康的参与度

数字心理健康（DMH）干预，如基于短消息的课程和活动，为心理健康支持提供巨大潜力。利用自适应实验和算法（如Thompson Sampling）进行连续改进和个性化设计，以提高用户体验奖励并为社会行为科学家收集足够的统计数据分析，但对于不同真实环境的影响仍需进一步探索。本文介绍了一个经过两年开发的软件系统，可在收集数据的同时，使用Bandit和其他算法来调整基于短消息的DMH干预组件，并与传统的均匀随机非自适应实验进行对比评估。通过在一个大型心理健康非盈利组织中招募1100名用户，并展示该系统在规模化部署方面的前景，证明该系统不仅适用于心理健康领域，也可作为其他领域自适应实验算法的模型试验平台。

Oct, 2023

一种多臂赌博机的随时有效因果推断的实验设计

通过Mixture Adaptive Design (MAD)实验设计，与用户选择的多臂赌博算法结合Bernoulli设计，能够在几乎任何赌博算法中对平均处理效果(ATE)进行连续推论，保证统计有效性和功率，提高MAB实验中ATE推论的覆盖率和功效。

Nov, 2023