一种多臂赌博机的随时有效因果推断的实验设计
本研究使用多臂赌博问题 (Multi-armed bandit problems, MABPs) 来探索在临床试验中优化设计和资源分配的理论,比较不同的分配规则,提出一种新的患者分配规则以克服低统计功效的问题,并为临床试验的实际设计和分析提供理论参考。
Jul, 2015
设计一种不使用奖励分布信息的多臂赌博机算法,通过交替应用贪婪规则与强制探索来实现显著的后悔上界,并提供不同强制探索策略下的问题依赖性后悔上界分析方法,适用于不同奖励分布的固定和分段固定设置。
Dec, 2023
本论文通过理论分析,提出了一种基于 M - 估计量的方法,利用自适应算法(包括习得算法和最大似然算法)处理 bandit 算法采集的数据,进而构建了一种渐进有效的置信区间方法,可用于许多统计推断目标。
Apr, 2021
本研究调查和综合了在线统计学习范例 —— 称为多臂赌博机的领域,作为在线实验的某一类资源。我们首先探讨了传统的多臂赌博机的随机模型,然后探讨了复杂模型的分类模式,针对每种模型的复杂性与实验设计背景下的特定要求或考虑进行了说明。最后,我们提供了所有研究算法已知上限遗憾表格的决策工具,为未来理论工作提供了两方面的视角。
Oct, 2015
本文研究使用复合和匿名反馈的多臂老虎机问题,提出适应性算法,解决了没有先验关于奖励间隔大小的信息的问题,并且进行了基于真实数据集的模拟实验,结果表明我们的算法胜过现有的基准算法。
Dec, 2020
在批处理的强化学习实验中,我们考虑基于实现的停止时间、分配概率和目标参数进行推理的问题,其中所有这些可以根据实验的最后一个批次的信息自适应地选择。在没有进一步限制实验的情况下,我们表明仅使用最后一个批次的结果进行推理是最优的。当已知实验的自适应方面是无位置偏差的,即当我们将所有批次 - 臂均值移动一个常数时它们不变,我们表明数据中存在额外信息,可以通过附加的批次 - 臂均值的线性函数来捕捉。在更严格的情况下,即当停止时间、分配概率和目标参数仅通过一个多面体事件集合依赖于数据时,我们推导出可计算且最优的条件推理过程。
Sep, 2023
该研究提出了一种通用的组合多臂赌博问题框架,将未知分布的基础臂组成超级臂进行玩耍,进一步探讨了更多可能基于已激发臂的结果触发概率的扩展,旨在通过在线学习算法实现最小化(α,β)- 逼近遗憾。
Jul, 2014
现代平台利用随机实验从给定的项目集(“处理”)中进行明智决策。本研究探讨了一种贝叶斯多次播放自助游问题,涵盖了具有高容量短寿命项目的多元测试(或 “多个 A/B 测试”)问题的关键特点。通过大规模领域实验证明,我们的策略比平台当前的推荐系统在总持续时间上提升了 4.32%,点击次数上提升了 7.48%。
Dec, 2023