广义线性赌博机中最佳臂的识别
本文研究线性贝叶斯最优化模型中的最优臂选择问题,提出样本分配策略来识别具有固定置信度的最优臂,并在最小化样本预算的同时改进了全局线性结构估计附近最优臂的奖励值,并将其与最优实验设计中使用的 G - 最优准则进行比较。
Sep, 2014
本文研究了随机线性武装的固定置信度下的最佳武器识别问题,目标是在最小化采样预算的同时确定最佳武器。设计了一种简单的算法,其采样复杂度与已知的特定实例下界匹配,在几乎必然的情况下一致性和期望上。此算法依赖于跟踪最佳比例的武器采样规则,而且可以很少更新而不影响其理论保证。此外,与现有的最佳武器识别策略不同,我们的算法使用的停止规则不依赖于武器数量。实验结果表明,我们的算法明显优于现有算法。本文还对具有连续武器集的线性武装的最佳武器识别问题进行了首次分析。
Jun, 2020
最近在许多实际场景中出现了多臂赌博问题,其中由于代理人等待反馈的时间有限,必须对臂进行批量抽样。这些应用包括生物实验和在线营销。当臂的数量很大而批次的数量很小时,问题进一步复杂化。我们考虑了批量多臂赌博问题中的纯探索。我们引入了一个通用的线性规划框架,可以将不同理论设置中的目标纳入其中,以便在最佳臂识别中使用。线性规划导致了一个两阶段算法,可以实现良好的理论性能。通过数值研究,我们证明了该算法与某些 UCB 型或 Thompson 抽样方法相比也具有良好的性能。
Dec, 2023
我们研究了基于线性奖励的鲁棒最佳臂识别问题(RBAI)。选择近乎最佳的鲁棒臂是我们的主要目标,该过程涉及每轮选择臂并通过探索潜在对手行动来评估其鲁棒性,尤其适用于使用模拟器并寻找实际转移问题中的鲁棒解。我们提出了基于实例的线性奖励的鲁棒最佳臂识别问题的下界,并提出了静态和自适应赌博算法,其样本复杂度与下界相匹配。在合成实验中,我们的算法有效地识别出最佳的鲁棒臂,并与 “预言家” 策略表现相似。作为应用,我们研究了糖尿病护理以及学习对标准计算器不准确的胰岛素剂量建议的过程。我们的算法在识别不同年龄段患者的鲁棒剂量值方面证明了其有效性。
Nov, 2023
研究了多臂赌博机问题中学习者在选择臂时精度受限的变体,并且给出了期望停留时间的渐近下限并提出了一种修改后的算法用于处理非唯一最优配置,并且针对在简单的情况下访问不重叠臂的情况给出了非渐近下限和上限。
May, 2023
研究了多臂赌博机中的最佳臂辨识问题,提出了一个基于顺序淘汰算法的通用框架,并基于采样机制和每轮淘汰臂数量提出了性能评估指标,设计了一种按剩余臂数的非线性函数划分预算的算法,能够在纯探索场景下获得改进的理论保证和实验性能。
Sep, 2016
介绍了具有线性反馈的安全最优臂识别框架,代理受到一些在未知参数向量上线性相关的逐阶段安全约束的限制,代理必须以保守的方式采取行动,以确保在每一轮中不违反安全约束的概率较高。提出了一种基于间隙的算法,实现了有意义的样本复杂度,同时确保逐阶段的安全性。通过实验说明了算法设计的合理性。
Sep, 2023
本文在稳健统计学的背景下研究主动学习。具体而言,我们为受到污染的赌臂问题提出了一个变体,其中每个臂的拉动具有生成任意污染分布样本的概率 ε,而不是真正的基础分布。我们开发了紧凑的、非渐进的样本复杂度界限来高概率地估算受到污染的样本的前两个鲁棒矩(中位数和中位数绝对偏差)。利用这些结果,我们将几个经典的最佳臂识别算法适应于受到污染的赌臂环境,并为我们的问题导出样本复杂度上限。最后,我们提供了关于样本复杂度(最多小的对数因子)的匹配信息论下界。
Feb, 2018