基于子人群公平约束的最佳臂识别
在贝叶斯设置下,我们研究了固定置信度最佳臂识别问题。我们证明了传统的 FC-BAI 算法在贝叶斯设置下会导致任意次优的性能,并且介绍了一种连续淘汰的变体,其性能与下界匹配,仅有一个对数因子的差距。模拟实验验证了理论结果。
Feb, 2024
我们研究了基于线性奖励的鲁棒最佳臂识别问题(RBAI)。选择近乎最佳的鲁棒臂是我们的主要目标,该过程涉及每轮选择臂并通过探索潜在对手行动来评估其鲁棒性,尤其适用于使用模拟器并寻找实际转移问题中的鲁棒解。我们提出了基于实例的线性奖励的鲁棒最佳臂识别问题的下界,并提出了静态和自适应赌博算法,其样本复杂度与下界相匹配。在合成实验中,我们的算法有效地识别出最佳的鲁棒臂,并与 “预言家” 策略表现相似。作为应用,我们研究了糖尿病护理以及学习对标准计算器不准确的胰岛素剂量建议的过程。我们的算法在识别不同年龄段患者的鲁棒剂量值方面证明了其有效性。
Nov, 2023
该研究针对具有双重对象的最佳臂辨识问题进行了研究。在传统奖励的基础上,每个臂都与成本分布相关联,目标是通过最小的预期成本来辨识出最高奖励的臂。研究提出了一个理论下界和两种算法,以降低计算复杂性和实现近乎最优的性能。通过实验证明了忽视异质性行动成本会导致亚最优解,并且低复杂性算法在广泛的问题范围内提供近乎最优的性能。
Feb, 2024
我们提出了三批最佳臂识别(Tri-BBAI)算法和几乎最优的批量最佳臂识别(Opt-BBAI)算法,分别在渐近和非渐近设置中实现了最优的样本复杂度和批量复杂度,并设计了一种独立的程序来检查是否消除了最佳臂。
Oct, 2023
在资源约束下,通过资源消耗来识别最佳模式的 Best Arm Identification 问题中,我们设计并分析了基于资源分配的逐步减半算法 (SH-RR),它在成功识别最佳模式的概率方面实现了接近最优的非渐进收敛速度;有趣的是,我们在确定性和随机资源消耗的情况下发现了收敛速度上的差异。
Feb, 2024
在差分隐私约束下,研究固定预算探索期的线性赌臂问题,通过最大绝对确定性原则构建满足差分隐私约束的策略,得到其错误概率的上限和下限,并展示其与赌臂问题复杂性、亚最优的臂差异和差分隐私参数相关的指数级衰减特性。此外,该研究还提供了独立感兴趣且对其他赌臂问题的错误概率下限证明具有重要作用的一些辅助结果,填补了先前文献中固定预算探索期下差分隐私约束情况下最优臂识别的研究空白。
Jan, 2024