安全约束下的线性随机赌博机
本研究利用UCB-like算法解决计算和采样高效的随机组合半贝叶斯在线学习问题,并分析了其$n$步遗憾的上界,这里的遗憾是指最优解和次优解之间的预期回报差距。
Oct, 2014
研究在基于上下文的线性多臂赌博机问题中的安全问题,提出了Conservative Linear UCB (CLUCB)算法,保证了安全性的同时,最小化了它的遗憾,并将其维持在一个固定的性能百分比之上。
Nov, 2016
本文针对线性随机赌博机问题提出一种基于线性Thompson抽样的新型安全算法,通过引入线性安全约束,在与没有安全约束的情况下,展示了使得机器人有更好的性能表现的结果,并将其与基于UCB算法的安全算法进行了比较。
Nov, 2019
本文介绍了一个安全的线性随机挑战模型,其中学习器在每一阶段都需要选择一个预期奖励不小于预先确定的(安全)阈值的臂,以高概率。我们假设学习器最初掌握的是一个已知为安全但不一定最优的臂的知识。基于此假设,介绍了一种学习算法,它将已知的安全臂与探索性臂系统地结合起来,以便随时间安全地扩展安全臂集,同时促进后续阶段的安全贪婪利用。除了确保在每个播放阶段满足安全约束之外,所提出的算法还表现出一种预期的遗憾,在播放T个阶段后不超过O(sqrt(T)log(T))
Nov, 2019
本研究提出一种叫做Con-LCB的算法,针对多维度、可能存在冲突评估指标的情况下,通过样本估算较优的“主要”指标,并且在满足“次要”指标的约束条件下,优化该主要指标,同时保证该算法的普适性和最优性,且在金融组合优化等应用领域也具有意义。
Jun, 2020
本文研究了一个约束的上下文线性赌博机问题,提出了一种算法 OPLB 并证明了其 T 轮后悔度的上限,针对多臂赌博机情况提出了高效算法,同时给出了问题的下限和模拟结果。
Jun, 2020
本文考虑在安全约束下,针对分段独立同分布赌博机的问题,引入了适应性算法,探测并重新开始实验,同时提供了相应的遗憾上界和匹配下界。实验表明,相较于不符合安全约束的算法,本文提出的带安全约束的算法性能相似。
May, 2022
提出了 probably anytime-safe stochastic combinatorial semi-bandits 问题及其改善风险的算法 PASCombUCB,可应用于推荐系统和交通运输领域等代理人在单个时间步内选择多个项目并希望在整个时间范围内控制风险的情境。
Jan, 2023
通过利用特定问题设置的几何性质,我们为分离良好的问题实例和有限星凸集的行动集提供了改进的遗憾保证。此外,我们提出了一种新的算法,该算法在选择问题参数时自适应,并且至少与现有算法具有相同的遗憾保证。最后,我们引入了安全线性贝叶斯设定的一个概括,其中约束是凸的,并通过一种基于凸分析的方法利用我们的算法和分析。模拟结果显示在各种随机抽样的设置中相对于现有算法的性能有所提升。
Aug, 2023
近年来,与人类不断互动的现实世界安全关键系统中的强盗优化引起了极大关注。本文提出了一个综合性研究,重点研究了安全线性强盗算法的计算方面,通过引入凸规划工具创建了计算效率高的策略。具体而言,我们首先对安全线性强盗问题的最优策略进行了特征化,并提出了一个仅涉及求解凸问题的端到端安全线性强盗算法流程。我们还对我们提出的方法的性能进行了数值评估。
Nov, 2023