强化学习中的目标：解决 Stackelberg 安全博弈

AAAINov, 2022

强化学习中的目标：解决 Stackelberg 安全博弈

Targets in Reinforcement Learning to solve Stackelberg Security Games

Saptarashmi Bandyopadhyay, Chenqi Zhu, Philip Daniel, Joshua Morrison, Ethan Shay...

TL;DR本篇综述关注强化学习在 Stackelberg 安全博弈中的建模，重点在于探讨强化学习算法中目标表示的可能改进和代理控制目标的能力评估，这种方法已经成功应用于类似非法走私、偷猎、森林砍伐、气候变化、机场安全等现实世界场景。

Abstract

reinforcement learning (RL) algorithms have been successfully applied to real world situations like illegal smuggling, poaching, deforestation, climate change, airport security, etc. These scenarios can be framed as Stackelberg security games (SSGs) where defenders and attackers compet

reinforcement learning stackelberg security games target representation competency assessment real world situations

发现论文，激发创造

通过适应性规则对抗训练实现史塔克伯格博弈的坚韧强化学习

本文介绍了一种用于强化学习的 Stackelberg 游戏模型 ——RRL-Stack，旨在提供额外的鲁棒性训练和解决目前 RL 训练中存在的过度保守智能及训练不稳定等问题，并提出了一种基于 Stackelberg Policy Gradient 算法的解决方案，在单一和多智能体任务中展现更好的训练稳定性和鲁棒性。

Feb, 2022

安全博弈中对手行为的端到端游戏集中学习

本文介绍了一种新的以博弈为重点的方法，以解决对于一个新的特征值和组合的目标普遍化防御的问题，结果表明在数据受限的情况下，这种方法可实现比传统方法更高的防御者预期效益。

Mar, 2019

基于实时信息的绿色安全游戏的深度强化学习

本研究提出了一种新的游戏模型 GSG-I，结合了顺序移动和实时信息等关键元素，设计了基于双预言机框架和策略空间响应预言机的深度强化学习算法 DeDOL 来计算巡逻策略，以对抗最佳响应的攻击者，探索游戏结构使用领域特定启发式策略和构建多个局部模态以进行高效和并行化训练。这是首次尝试将深度 Q-Learning 应用于安全游戏。

Nov, 2018

使用约束动作空间强化学习解决在线威胁筛查游戏

本研究提出了一种旅客安全检查的在线威胁筛查模型，其中检查策略是当旅客到达时自适应确定的，同时满足不检查威胁的可接受风险硬性约束，解决了传统模型中固定时间窗口的限制，并采用基于线性不等式约束的强化学习算法，有效平衡了较少的安检资源和威胁较高的检查风险。

Nov, 2019

深度多智能体强化学习中的斯塔克伯格均衡：神谕和追随者

本研究提出了一种将 Stackelberg 平衡搜索实现为多智能体强化学习问题的通用框架，并借助多任务和元强化学习技术实现了一种使用情境策略的方法，在标准和新颖的基准领域上进行了实验，并显示出较以前的方法大大提高的样本效率。同时，我们探讨了超出我们框架边界的算法设计所带来的影响。

Oct, 2022

随机斯塔克伯格安全博弈的无模型强化学习

本文提出了一种基于预期 Sarsa 的强化学习算法，使用粒子筛选器估计共同代理的信念更新，并以安全游戏示例说明了所学习的策略。

May, 2020

安全博弈中对手行为的学习 ——PAC 模型视角

本研究使用 PAC 模型，直接学习对手响应功能，通过实验验证了新的对手建模方法，在提高对手模型准确性时，探讨了实际需要的数据量，提供了最佳防御策略的条件。

Oct, 2015

多防御者安全博弈

研究了多个防御者在安全游戏中的战略互动，提供了三种不同情形下平衡和代价分析的结论，并开发了一种新的混合整数线性规划公式来计算防御者的最佳反应，以便近似计算游戏的 Nash 平衡点，并将其应用于多个网络模型，包括现实世界的电网，从而揭示了网络结构及故障传播概率是防御者过度或过于低估安全性的决定因素。

May, 2015

多保卫者斯塔克伯格安全博弈的鲁棒解决方案

本文提出了一个针对多防御者斯塔克尔贝格安全博弈（MSSG）的鲁棒模型，该模型可以有效提高防御者的效益，并产生鲁棒的近似均衡和 α- 核构造，吸收不确定性和扰动的影响。

Apr, 2022

具有一般防守要求的安全博弈的混合策略

该研究探讨了在防御范围不同时，混合策略在安全游戏中的应用，并提出了一种高效的补丁算法来计算使用少量纯策略的混合策略。研究发现，对于一般的防御要求设置，计算概率最优防御策略是 NP 难问题。

Apr, 2022