双重职责巡逻:绿色安全的多臂赌博算法
证明了当观察到的上下文具有足够的随机性时,贪心算法可以达到速率最优,并介绍了一种新的算法 Greedy-First,该算法仅使用观察到的上下文和奖励来确定是否按照贪心策略或探索策略,同时证明该算法在没有对上下文分布或手臂数量做任何其他假设的情况下具有速率最优的性质,并大量模拟结果表明,Greedy-First成功地减少了探索并优于现有的基于Exploration的上下文bandit算法,如Thompson sampling或upper confidence bound(UCB)。
Apr, 2017
本文研究了在多臂赌博机的延迟反馈场景下,如何利用局部反馈来提高标准算法的样本复杂度。采用模型化的方法探讨了局部反馈和延迟反馈之间的关系,并提出了一种用于处理偏差或无偏差情况下局部反馈的有效算法。另外,还针对并行多臂赌博机提出了一种新的算法扩展。在实际场景中,针对电池快速充电和野生动物走廊建设的计算可持续性领域中的策略搜索和超参数优化等问题的实验表明,利用局部反馈的结构可以显著提高标准算法的性能。
Mar, 2018
本研究提出了一种新的游戏模型GSG-I,结合了顺序移动和实时信息等关键元素,设计了基于双预言机框架和策略空间响应预言机的深度强化学习算法DeDOL来计算巡逻策略,以对抗最佳响应的攻击者,探索游戏结构使用领域特定启发式策略和构建多个局部模态以进行高效和并行化训练。这是首次尝试将深度Q-Learning应用于安全游戏。
Nov, 2018
该研究旨在针对绿色安全领域中的不确定性制定有韧性的顺序巡逻计划,以解决对保护者来说具有威慑效应的问题,并提出了一种基于强化学习的算法来找到一个更加稳健的决策策略。
Jun, 2021
本文研究通过基于经验指数的成对比较和数据相关探索奖励的重新采样来计算理论上不完整的手臂分布的 Dirichlet Sampling 算法,表明这些策略的不同变体在手臂分布有界时实现了可证明的最优遗憾保证,并且在半边界分布具有轻微的分位条件时,实现了对数遗憾。此外,我们还表明,通过对一类广泛的无界分布具有鲁棒性的简单调整,代价是比对数想定糟糕一些的渐近遗憾。最后,我们通过合成农业数据上的决策问题展示了DS算法的优点。
Nov, 2021
通过使用组合赌博,我们提出了一种名为RankedCUCB的算法来保护濒危物种,该算法可以在考虑到优先顺序的情况下优化固定的巡逻资源,并在实验中表现出多达38%的性能提升。
May, 2022
本文研究在资源受限条件下随机过程的干预规划问题,并提出了一种解决异构工人的多工人多臂不懈赌博机问题的方法。通过开发基于指标的调度策略和 Whittle 指数的多工人扩展,实现公平性和高收益的干预计划。最后的实验结果表明,该方法在公平性方面表现优异,而在奖励积累方面只有轻微的牺牲。
Mar, 2023
本研究针对传统随机多代理多臂强盗问题中的差异化奖励分配缺乏有效方法的空白,提出了一种新的UCB风格算法Min-Width,以整合来自异质代理的信息并协调代理与臂的分配。研究发现,当代理的敏感性差异较大时,模型对代理异质性的考虑能显著提升性能,而信息共享的增加并不始终提升表现。
Aug, 2024
本文针对非平稳随机赌博机中的最佳臂识别问题,提出了一种新的解决方案。研究展示了现有方法未能充分利用环境变化的特性,因此效果不佳;为此,开发了一种一致且稳健的选择策略,以及一种利用环境间全球变化信息的分配策略LinLUCB,实验证明了其显著优越性。
Aug, 2024