多臂赌博机问题的算法
证明了当观察到的上下文具有足够的随机性时,贪心算法可以达到速率最优,并介绍了一种新的算法 Greedy-First,该算法仅使用观察到的上下文和奖励来确定是否按照贪心策略或探索策略,同时证明该算法在没有对上下文分布或手臂数量做任何其他假设的情况下具有速率最优的性质,并大量模拟结果表明,Greedy-First成功地减少了探索并优于现有的基于Exploration的上下文bandit算法,如Thompson sampling或upper confidence bound(UCB)。
Apr, 2017
本文通过多臂赌博算法分析了在临床试验提前阶段寻找最佳剂量的问题,提出用Thompson Sampling原则作为算法实现。使用基于先验分布的Thompson Sampling算法在一些I期或I/II期试验中发现其表现优异。
Mar, 2019
提出了一种新的无休止多臂赌博机设置——Collapsing Bandits,并在医疗保健领域中实现了应用,该算法使用何维特指数技术和阈值策略来优化可观察状态数量较少、不可观察状态数量较多的多臂赌博机问题,评估了算法在多种数据分布上的性能。
Jul, 2020
本篇论文研究以往文献未解决的问题,提出了一种新的基于Thompson采样的算法(被称为去混淆Thompson采样),该算法在易于稳定的情况下发挥优越效率,在困难的不稳定情况下也表现出出人意料的韧性,可在具有不稳定上下文影响的武器性能的智能探险算法中应用。
Feb, 2022
本综述分析了在多臂赌博机情境下,风险度量的各种措施及其特性、各种风险度量的集中不等式、风险感知的赌博问题,包括在遗憾最小化设置中的算法和在最佳臂识别设置中的纯探索问题,以及未来研究的挑战和肥沃领域。
May, 2022
文章介绍了一种结合在线Primal-dual算法和上下文强化学习算法的优化和学习算法来解决数字健康领域中的个性化治疗问题,并证明该算法具有亚线性后悔界限。
May, 2023
数字心理健康(DMH)干预,如基于短消息的课程和活动,为心理健康支持提供巨大潜力。利用自适应实验和算法(如Thompson Sampling)进行连续改进和个性化设计,以提高用户体验奖励并为社会行为科学家收集足够的统计数据分析,但对于不同真实环境的影响仍需进一步探索。本文介绍了一个经过两年开发的软件系统,可在收集数据的同时,使用Bandit和其他算法来调整基于短消息的DMH干预组件,并与传统的均匀随机非自适应实验进行对比评估。通过在一个大型心理健康非盈利组织中招募1100名用户,并展示该系统在规模化部署方面的前景,证明该系统不仅适用于心理健康领域,也可作为其他领域自适应实验算法的模型试验平台。
Oct, 2023
通过Mixture Adaptive Design (MAD)实验设计,与用户选择的多臂赌博算法结合Bernoulli设计,能够在几乎任何赌博算法中对平均处理效果(ATE)进行连续推论,保证统计有效性和功率,提高MAB实验中ATE推论的覆盖率和功效。
Nov, 2023