具有固定预算的局部最优最佳臂鉴别
该研究探讨了一种用于固定预算最佳臂识别的局部渐近最小极值策略,并提出自适应广义 Neyman 分配(AGNA)策略,证明其在小间隙情况下最佳臂误识概率的最坏情况上界与最坏情况下界对齐。该策略是 Neyman 分配的一般化,并针对 Glynn&Juneja(2004)和 Shin 等人(2018)提出的现有策略进行了改进。相比于 Komiyama 等人(2022)提出的极小极大速率最优策略,我们提出的策略通过将分布类限制为小间隙分布,获得了更紧密的上界,包括常数项,并为固定预算最佳臂识别中的渐近最优策略的存在性问题做出了贡献。
May, 2024
个性化治疗建议、最佳治疗方法鉴定、上下文信息、自适应实验以及策略学习是这篇研究论文的关键词,通过推荐最佳治疗方法的决策策略获得最小的预期简单后悔,同时为政策学习、实验设计和自适应福利最大化提供了新的方法。
Jan, 2024
我们研究了基于线性奖励的鲁棒最佳臂识别问题(RBAI)。选择近乎最佳的鲁棒臂是我们的主要目标,该过程涉及每轮选择臂并通过探索潜在对手行动来评估其鲁棒性,尤其适用于使用模拟器并寻找实际转移问题中的鲁棒解。我们提出了基于实例的线性奖励的鲁棒最佳臂识别问题的下界,并提出了静态和自适应赌博算法,其样本复杂度与下界相匹配。在合成实验中,我们的算法有效地识别出最佳的鲁棒臂,并与 “预言家” 策略表现相似。作为应用,我们研究了糖尿病护理以及学习对标准计算器不准确的胰岛素剂量建议的过程。我们的算法在识别不同年龄段患者的鲁棒剂量值方面证明了其有效性。
Nov, 2023
在差分隐私约束下,研究固定预算探索期的线性赌臂问题,通过最大绝对确定性原则构建满足差分隐私约束的策略,得到其错误概率的上限和下限,并展示其与赌臂问题复杂性、亚最优的臂差异和差分隐私参数相关的指数级衰减特性。此外,该研究还提供了独立感兴趣且对其他赌臂问题的错误概率下限证明具有重要作用的一些辅助结果,填补了先前文献中固定预算探索期下差分隐私约束情况下最优臂识别的研究空白。
Jan, 2024
我们提出了三批最佳臂识别(Tri-BBAI)算法和几乎最优的批量最佳臂识别(Opt-BBAI)算法,分别在渐近和非渐近设置中实现了最优的样本复杂度和批量复杂度,并设计了一种独立的程序来检查是否消除了最佳臂。
Oct, 2023
本文研究了随机线性武装的固定置信度下的最佳武器识别问题,目标是在最小化采样预算的同时确定最佳武器。设计了一种简单的算法,其采样复杂度与已知的特定实例下界匹配,在几乎必然的情况下一致性和期望上。此算法依赖于跟踪最佳比例的武器采样规则,而且可以很少更新而不影响其理论保证。此外,与现有的最佳武器识别策略不同,我们的算法使用的停止规则不依赖于武器数量。实验结果表明,我们的算法明显优于现有算法。本文还对具有连续武器集的线性武装的最佳武器识别问题进行了首次分析。
Jun, 2020
本文研究线性贝叶斯最优化模型中的最优臂选择问题,提出样本分配策略来识别具有固定置信度的最优臂,并在最小化样本预算的同时改进了全局线性结构估计附近最优臂的奖励值,并将其与最优实验设计中使用的 G - 最优准则进行比较。
Sep, 2014
在贝叶斯设置下,我们研究了固定置信度最佳臂识别问题。我们证明了传统的 FC-BAI 算法在贝叶斯设置下会导致任意次优的性能,并且介绍了一种连续淘汰的变体,其性能与下界匹配,仅有一个对数因子的差距。模拟实验验证了理论结果。
Feb, 2024