一种多臂赌博机的随时有效因果推断的实验设计

Nov, 2023

一种多臂赌博机的随时有效因果推断的实验设计

An Experimental Design for Anytime-Valid Causal Inference on Multi-Armed Bandits

Biyonka Liang, Iavor Bojinov

TL;DR通过 Mixture Adaptive Design (MAD) 实验设计，与用户选择的多臂赌博算法结合 Bernoulli 设计，能够在几乎任何赌博算法中对平均处理效果 (ATE) 进行连续推论，保证统计有效性和功率，提高 MAB 实验中 ATE 推论的覆盖率和功效。

Abstract

Typically, multi-armed bandit (MAB) experiments are analyzed at the end of the study and thus require the analyst to specify a fixed sample size in advance. However, in many online learning applications, it is advantageous to continuously produce inference on the →

multi-armed bandit continuous inference experimental design average treatment effect adaptive experiments

发现论文，激发创造

多臂老虎机模型在临床试验最优设计中的应用：优势与挑战

本研究使用多臂赌博问题 (Multi-armed bandit problems, MABPs) 来探索在临床试验中优化设计和资源分配的理论，比较不同的分配规则，提出一种新的患者分配规则以克服低统计功效的问题，并为临床试验的实际设计和分析提供理论参考。

Jul, 2015

强制性探索在赌博问题中的应用

设计一种不使用奖励分布信息的多臂赌博机算法，通过交替应用贪婪规则与强制探索来实现显著的后悔上界，并提供不同强制探索策略下的问题依赖性后悔上界分析方法，适用于不同奖励分布的固定和分段固定设置。

Dec, 2023

利用 M - 估计器对自适应收集数据进行统计推断

本论文通过理论分析，提出了一种基于 M - 估计量的方法，利用自适应算法（包括习得算法和最大似然算法）处理 bandit 算法采集的数据，进而构建了一种渐进有效的置信区间方法，可用于许多统计推断目标。

Apr, 2021

带干扰的多臂赌博机

在当代在线平台中，干扰实验面临重大挑战。本研究介绍了具有干扰的多臂赌博机问题，应用集群随机化策略来达到最优期望后悔值，并得出高概率边界与实验单元数 N 无关。

Feb, 2024

带随机多臂赌博机的在线实验设计调查

本研究调查和综合了在线统计学习范例 —— 称为多臂赌博机的领域，作为在线实验的某一类资源。我们首先探讨了传统的多臂赌博机的随机模型，然后探讨了复杂模型的分类模式，针对每种模型的复杂性与实验设计背景下的特定要求或考虑进行了说明。最后，我们提供了所有研究算法已知上限遗憾表格的决策工具，为未来理论工作提供了两方面的视角。

Oct, 2015

复合和匿名反馈多臂赌博机的自适应算法

本文研究使用复合和匿名反馈的多臂老虎机问题，提出适应性算法，解决了没有先验关于奖励间隔大小的信息的问题，并且进行了基于真实数据集的模拟实验，结果表明我们的算法胜过现有的基准算法。

Dec, 2020

自适应实验中的最优条件推断

在批处理的强化学习实验中，我们考虑基于实现的停止时间、分配概率和目标参数进行推理的问题，其中所有这些可以根据实验的最后一个批次的信息自适应地选择。在没有进一步限制实验的情况下，我们表明仅使用最后一个批次的结果进行推理是最优的。当已知实验的自适应方面是无位置偏差的，即当我们将所有批次 - 臂均值移动一个常数时它们不变，我们表明数据中存在额外信息，可以通过附加的批次 - 臂均值的线性函数来捕捉。在更严格的情况下，即当停止时间、分配概率和目标参数仅通过一个多面体事件集合依赖于数据时，我们推导出可计算且最优的条件推理过程。

Sep, 2023

因果抽象多臂赌博机

将传输学习应用于因果抽象多臂赌博机，研究算法学习和后悔度，以解决在线广告相关的现实场景。

Apr, 2024

组合多臂老虎机及其对概率触发臂的扩展

该研究提出了一种通用的组合多臂赌博问题框架，将未知分布的基础臂组成超级臂进行玩耍，进一步探讨了更多可能基于已激发臂的结果触发概率的扩展，旨在通过在线学习算法实现最小化（α，β）- 逼近遗憾。

Jul, 2014

短时、高容量的多臂 / 波段测试

现代平台利用随机实验从给定的项目集（“处理”）中进行明智决策。本研究探讨了一种贝叶斯多次播放自助游问题，涵盖了具有高容量短寿命项目的多元测试（或 “多个 A/B 测试”）问题的关键特点。通过大规模领域实验证明，我们的策略比平台当前的推荐系统在总持续时间上提升了 4.32％，点击次数上提升了 7.48％。

Dec, 2023