多臂匪徒设计在剂量寻找临床试验中的应用

Mar, 2019

多臂匪徒设计在剂量寻找临床试验中的应用

On Multi-Armed Bandit Designs for Phase I Clinical Trials

Maryam Aziz, Emilie Kaufmann, Marie-Karelle Riviere

TL;DR本文通过多臂赌博算法分析了在临床试验提前阶段寻找最佳剂量的问题，提出用Thompson Sampling原则作为算法实现。使用基于先验分布的Thompson Sampling算法在一些I期或I/II期试验中发现其表现优异。

Abstract

We study the problem of finding the optimal dosage in a phase I clinical trial through the multi-armed bandit lens. We advocate the use of the thompson sampling principle, a flexible algorithm that can accommodat

发现论文，激发创造

多臂赌博问题中汤普森采样的分析

本文介绍了使用贝叶斯算法的 Thompson Sampling 原则，旨在在序贯决策问题中研究探索/开发权衡。该算法在实验证明接近最优，并展现了一些理想的特性，但对该算法的理论认识相当有限。本文第一次展示了 Thompson Sampling 算法在多臂赌博机问题中实现了对数级别的预期遗憾。

Nov, 2011

进一步优化 Thompson Sampling 算法的后悔上界

使用贝叶斯方法的随机算法Thompson Sampling在多臂赌博问题中表现显著，本文提供了一种新的悔恨分析方法，同时证明了该算法在期望后悔上的问题特定界限和问题独立界限，方法简单且可适用于更广泛的contestual bandits设置。

Sep, 2012

通过后验抽样学习优化

本文采用一种简单的后验抽样算法来平衡探索和利用学习优化操作，称为 Thompson Sampling，理论上提出了后验抽样与 UCB 算法的联系，并提供了一个广泛适用且可以专门针对许多模型类进行特化的后验抽样贝叶斯遗憾界。

Jan, 2013

多臂赌博机问题的算法

本文通过对多臂赌博问题最流行的算法进行彻底的实证研究，发现在大多数情况下，简单的启发式搜索算法优于理论上较为严谨的算法。同时，各种算法的性能相对于其他算法的效果受赌博机臂数目和奖励方差的影响。此研究还模拟了一项临床试验，结果表明，智能试验可以成功治疗至少50%的患者，并显著降低不良反应和增加患者保留率。该发现证明赌博算法是当前自适应治疗分配策略的有吸引力的替代方法。

Feb, 2014

连续处理的政策评估与优化

扩展了离散治疗的反倾斜权重和双重稳健方法，使用了一个利用治疗接近程度的核函数来衰减拒绝采样，缓解了样本拒绝问题，可应用于持续的治疗问题，通过个性化给药数据集的案例研究，得到了比基准更好的策略推荐结果。

Feb, 2018

用于转导线性赌博机的连续实验设计

本文介绍了传导式线性赌博机问题，提供了该问题的上下界和算法，并给出其评估结果，特别地，提供了第一个实现信息论下界的非相似线性赌博机算法。

Jun, 2019

具有安全约束的自适应临床试验中剂量分配的学习

该论文介绍了一种名为Safe Efficacy Exploration Dose Allocation(SEEDA)的自适应临床试验方法，其目的是在高概率满足毒性安全约束的情况下最大化累积有效性。在实验中发现，与现有的临床试验设计相比，SEEDA可以找到最佳的剂量，且成功率更高，需要更少的患者。

Jun, 2020

组合半臂老虎机的汤普森抽样的统计效率

本文研究了采用半智能反馈的随机组合多臂赌博机问题。研究中提出了解决对于两种不同分布情况下是否存在效率最优、渐进遗憾最小算法的问题。通过分别采用Beta先验和高斯先验对 Combinatorial Thompson Sampling 策略进行了分析，进而找到了这两种分布情况下的算法解决方案，从而得出计算效率上优于 Efficient Sampling for Combinatorial Bandit 策略的结论。

Jun, 2020

多臂老虎机实验中的适应性和混淆

本篇论文研究以往文献未解决的问题，提出了一种新的基于Thompson采样的算法（被称为去混淆Thompson采样），该算法在易于稳定的情况下发挥优越效率，在困难的不稳定情况下也表现出出人意料的韧性，可在具有不稳定上下文影响的武器性能的智能探险算法中应用。

Feb, 2022

平衡风险和回报：自动分阶段发布策略

这篇论文提出了通过一系列的A/B实验和自适应Bayesian方法来保证控制风险和最大化增长速度的策略，该方法被称为batched bandit问题，其中关键因素是实验预算。

May, 2023