绿色安全中极小后悔的强化学习

Jun, 2021

Robust Reinforcement Learning Under Minimax Regret for Green Security

Lily Xu, Andrew Perrault, Fei Fang, Haipeng Chen, Milind Tambe

TL;DR该研究旨在针对绿色安全领域中的不确定性制定有韧性的顺序巡逻计划，以解决对保护者来说具有威慑效应的问题，并提出了一种基于强化学习的算法来找到一个更加稳健的决策策略。

Abstract

green security domains feature defenders who plan patrols in the face of uncertainty about the adversarial behavior of poachers, illegal loggers, and illegal fishers. Importantly, the deterrence effect of patrols on adversaries' future behavior makes →

green security domains patrol planning sequential decision-making minimax regret criterion reinforcement learning

发现论文，激发创造

双重职责巡逻：绿色安全的多臂赌博算法

该论文介绍了 LIZARD 算法，它是基于多臂赌博算法的一种方法，帮助保护濒危动物和森林资源的巡逻策略选择，并优化了短期表现。

Sep, 2020

基于实时信息的绿色安全游戏的深度强化学习

本研究提出了一种新的游戏模型 GSG-I，结合了顺序移动和实时信息等关键元素，设计了基于双预言机框架和策略空间响应预言机的深度强化学习算法 DeDOL 来计算巡逻策略，以对抗最佳响应的攻击者，探索游戏结构使用领域特定启发式策略和构建多个局部模态以进行高效和并行化训练。这是首次尝试将深度 Q-Learning 应用于安全游戏。

Nov, 2018

优化最小后悔度的无监督环境设计

无监督环境设计中，使用基于后悔最小化的最小极大后悔 (BLP) 目标进行训练，通过算法 ReMiDi 实现回报最小化，克服了智能体在极大后悔对手生成的环境配置中学习停滞的问题。

Feb, 2024

高效对抗引导的强化学习鲁棒性优化

本研究引入了群体对抗训练方法以增强强化学习代理的鲁棒性和优化性能，通过在最优解决方案的近似嵌套和更加普适性的选取方式进行了验证。

Jun, 2023

基于遗憾的优化方法用于强化学习的鲁棒性

该论文提出一种更为积极的方法改进深度强化学习中的强健性，采用最小化最大后悔作为优化方法，并证明该方法可显著提高性能。

Feb, 2023

基于极小化遗憾优化的不确定马尔可夫决策过程鲁棒规划

本文旨在通过引入一种 Bellman 方程式来计算政策的懊悔，提出了一种基于动态规划算法的方法，以便为具有不确定成本和转移函数的 SSP UMDPs 规划，该方法精确地优化了具有独立不确定性的 UMDPs 的最小化极大遗憾，并通过选项扩展了该方法，以使计算和解决方案质量之间存在权衡。在人造和实际领域中评估我们的方法，显示它明显优于现有的基线。

Dec, 2020

通过极小极大对偶视角看最优遗憾的随机观点

通过 von Neumann 最小极大定理，我们研究了在线凸优化游戏的最优策略的遗憾。我们证明了，在这种对抗性环境中，最优策略的遗憾与随机进程设置中经验最小化算法的行为密切相关：它等于最小期望损失的总和与最小经验损失之间的差的最大值。我们展示了最优策略的遗憾具有自然的几何解释，因为它可以被视为一个上凸函数的 Jensen 不等式中的差距。利用此表达式，我们对各种在线学习问题的最优策略给出了上下界限制。我们的方法提供了无需构建学习算法的上界，而提供了对抗者的明确最优策略的下界。

Mar, 2009

部分可观测深度强化学习的后悔最小化

本研究提出了一种新的基于反事实遗憾最小化的深度强化学习算法，能够有效处理部分观测状态，并在 Doom 和 Minecraft 中的学习第一人称的 3D 导航以及在 Doom 和 Pong 中进行部分观测对象的动作等强化学习任务中显著优于现有基线算法。

Oct, 2017

一般和式马尔可夫博弈的遗憾最小化和均衡收敛

简而言之，本文提出了一种针对广义和博弈的、分散、计算高效的算法，其保证所有代理都使用时可以提供次线性遗憾保证，并且不需要代理之间的通信。该算法的主要观察结果是，通过马尔可夫游戏的在线学习基本上可以归结为一种加权遗憾最小化。

Jul, 2022

对抗对手下的学习马尔科夫博弈：高效算法与基本极限

本文研究了在零和游戏中应用没有遗憾学习算法对抗自适应对手并取得最优结果的问题，并给出了一组正负结果，其中提出的新算法在普通的策略类别小或对手策略类别小时，可取得平均的 regret 较小的结果。

Mar, 2022