安全线性随机赌博机
介绍了一类广泛的随机赌博问题,其中将臂与相应的奖励映射的函数具有一些已知的结构特性。推导了这些问题的渐近特定情况下的遗憾下界,并且开发了OSSB算法,其遗憾匹配了这个基本极限。通过数值实验展示了OSSB的效率,并且证明OSSB优于包括汤普森取样在内的现有算法。
Nov, 2017
本文提出了一种基于UCB策略的新算法Safe-LUCB,用于解决多臂赌博问题中考虑安全限制的约束,该算法具有探索和利用两个阶段,并控制遗憾值增长,提供了一般遗憾上界及与最佳行动位置有关的问题相关遗憾上界。
Aug, 2019
本文针对线性随机赌博机问题提出一种基于线性Thompson抽样的新型安全算法,通过引入线性安全约束,在与没有安全约束的情况下,展示了使得机器人有更好的性能表现的结果,并将其与基于UCB算法的安全算法进行了比较。
Nov, 2019
本文研究了一个约束的上下文线性赌博机问题,提出了一种算法 OPLB 并证明了其 T 轮后悔度的上限,针对多臂赌博机情况提出了高效算法,同时给出了问题的下限和模拟结果。
Jun, 2020
本文研究了随机线性武装的固定置信度下的最佳武器识别问题,目标是在最小化采样预算的同时确定最佳武器。设计了一种简单的算法,其采样复杂度与已知的特定实例下界匹配,在几乎必然的情况下一致性和期望上。此算法依赖于跟踪最佳比例的武器采样规则,而且可以很少更新而不影响其理论保证。此外,与现有的最佳武器识别策略不同,我们的算法使用的停止规则不依赖于武器数量。实验结果表明,我们的算法明显优于现有算法。本文还对具有连续武器集的线性武装的最佳武器识别问题进行了首次分析。
Jun, 2020
研究了随机线性赌博机问题,考虑了对抗攻击,提出了两种Robust Phased Elimination算法,证明了在非污染情况下可以获得近似最优的收益,并得出针对这些算法的相对近似最优的加性项。同时,在具有多样化情境的情况下,表明一种简单的贪婪算法是稳健的,近似最优的加性遗憾项,尽管不进行明确的探索并且不知道C。
Jul, 2020
通过利用特定问题设置的几何性质,我们为分离良好的问题实例和有限星凸集的行动集提供了改进的遗憾保证。此外,我们提出了一种新的算法,该算法在选择问题参数时自适应,并且至少与现有算法具有相同的遗憾保证。最后,我们引入了安全线性贝叶斯设定的一个概括,其中约束是凸的,并通过一种基于凸分析的方法利用我们的算法和分析。模拟结果显示在各种随机抽样的设置中相对于现有算法的性能有所提升。
Aug, 2023
在随机线性赌博机的框架中,我们获得了强化的后悔概念的紧密上界。这个强化的后悔概念被称为Nash后悔,它被定义为线性赌博机算法累积的预期奖励的几何平均值与(事先未知的)最优解之间的差异。我们开发了一种算法,在有限的臂集和无限的臂集两种情况下,实现了Nash后悔的上界。
Oct, 2023
近年来,与人类不断互动的现实世界安全关键系统中的强盗优化引起了极大关注。本文提出了一个综合性研究,重点研究了安全线性强盗算法的计算方面,通过引入凸规划工具创建了计算效率高的策略。具体而言,我们首先对安全线性强盗问题的最优策略进行了特征化,并提出了一个仅涉及求解凸问题的端到端安全线性强盗算法流程。我们还对我们提出的方法的性能进行了数值评估。
Nov, 2023