多臂匪徒设计在剂量寻找临床试验中的应用
本文介绍了使用贝叶斯算法的 Thompson Sampling 原则,旨在在序贯决策问题中研究探索/开发权衡。该算法在实验证明接近最优,并展现了一些理想的特性,但对该算法的理论认识相当有限。本文第一次展示了 Thompson Sampling 算法在多臂赌博机问题中实现了对数级别的预期遗憾。
Nov, 2011
使用贝叶斯方法的随机算法Thompson Sampling在多臂赌博问题中表现显著,本文提供了一种新的悔恨分析方法,同时证明了该算法在期望后悔上的问题特定界限和问题独立界限,方法简单且可适用于更广泛的contestual bandits设置。
Sep, 2012
本文采用一种简单的后验抽样算法来平衡探索和利用学习优化操作,称为 Thompson Sampling,理论上提出了后验抽样与 UCB 算法的联系,并提供了一个广泛适用且可以专门针对许多模型类进行特化的后验抽样贝叶斯遗憾界。
Jan, 2013
本文通过对多臂赌博问题最流行的算法进行彻底的实证研究,发现在大多数情况下,简单的启发式搜索算法优于理论上较为严谨的算法。同时,各种算法的性能相对于其他算法的效果受赌博机臂数目和奖励方差的影响。此研究还模拟了一项临床试验,结果表明,智能试验可以成功治疗至少50%的患者,并显著降低不良反应和增加患者保留率。该发现证明赌博算法是当前自适应治疗分配策略的有吸引力的替代方法。
Feb, 2014
扩展了离散治疗的反倾斜权重和双重稳健方法,使用了一个利用治疗接近程度的核函数来衰减拒绝采样,缓解了样本拒绝问题,可应用于持续的治疗问题,通过个性化给药数据集的案例研究,得到了比基准更好的策略推荐结果。
Feb, 2018
该论文介绍了一种名为Safe Efficacy Exploration Dose Allocation(SEEDA)的自适应临床试验方法,其目的是在高概率满足毒性安全约束的情况下最大化累积有效性。在实验中发现,与现有的临床试验设计相比,SEEDA可以找到最佳的剂量,且成功率更高,需要更少的患者。
Jun, 2020
本文研究了采用半智能反馈的随机组合多臂赌博机问题。研究中提出了解决对于两种不同分布情况下是否存在效率最优、渐进遗憾最小算法的问题。通过分别采用Beta先验和高斯先验对 Combinatorial Thompson Sampling 策略进行了分析,进而找到了这两种分布情况下的算法解决方案,从而得出计算效率上优于 Efficient Sampling for Combinatorial Bandit 策略的结论。
Jun, 2020
本篇论文研究以往文献未解决的问题,提出了一种新的基于Thompson采样的算法(被称为去混淆Thompson采样),该算法在易于稳定的情况下发挥优越效率,在困难的不稳定情况下也表现出出人意料的韧性,可在具有不稳定上下文影响的武器性能的智能探险算法中应用。
Feb, 2022
这篇论文提出了通过一系列的A/B实验和自适应Bayesian方法来保证控制风险和最大化增长速度的策略,该方法被称为batched bandit问题,其中关键因素是实验预算。
May, 2023