使用约束动作空间强化学习解决在线威胁筛查游戏

AAAINov, 2019

使用约束动作空间强化学习解决在线威胁筛查游戏

Solving Online Threat Screening Games using Constrained Action Space Reinforcement Learning

Sanket Shah, Arunesh Sinha, Pradeep Varakantham, Andrew Perrault, Milind Tambe

TL;DR本研究提出了一种旅客安全检查的在线威胁筛查模型，其中检查策略是当旅客到达时自适应确定的，同时满足不检查威胁的可接受风险硬性约束，解决了传统模型中固定时间窗口的限制，并采用基于线性不等式约束的强化学习算法，有效平衡了较少的安检资源和威胁较高的检查风险。

Abstract

Large-scale screening for potential threats with limited resources and capacity for screening is a problem of interest at airports, seaports, and other ports of entry. Adversaries can observe screening procedures and arrive at a time when there will be gaps in screening due to limited

threat screening limited resources reinforcement learning linear inequality constraints risk management

发现论文，激发创造

强化学习中的目标：解决 Stackelberg 安全博弈

本篇综述关注强化学习在 Stackelberg 安全博弈中的建模，重点在于探讨强化学习算法中目标表示的可能改进和代理控制目标的能力评估，这种方法已经成功应用于类似非法走私、偷猎、森林砍伐、气候变化、机场安全等现实世界场景。

Nov, 2022

通过在线学习和自适应猜想实现自动安全响应

我们研究了一个 IT 基础设施的自动化安全响应，并将攻击者和防御者之间的交互形式化为一种部分观察到的非稳定游戏。我们通过估计模型的概率性猜想来捕捉基础设施和玩家意图的不确定性，利用贝叶斯学习和回滚的方法在线学习有效的游戏策略，并证明了推测收敛于最佳拟合，并提供了基于推测模型的性能改进的界限。我们提出了 Berk-Nash 均衡的一种变体来刻画游戏的稳态。通过一个高级持续威胁的使用案例来展示我们的方法。基于测试平台的模拟研究表明，我们的方法能够产生适应不断变化的环境的有效安全策略，并且我们还发现相比当前的强化学习技术，我们的方法能够实现更快的收敛。

Feb, 2024

基于实时信息的绿色安全游戏的深度强化学习

本研究提出了一种新的游戏模型 GSG-I，结合了顺序移动和实时信息等关键元素，设计了基于双预言机框架和策略空间响应预言机的深度强化学习算法 DeDOL 来计算巡逻策略，以对抗最佳响应的攻击者，探索游戏结构使用领域特定启发式策略和构建多个局部模态以进行高效和并行化训练。这是首次尝试将深度 Q-Learning 应用于安全游戏。

Nov, 2018

资源受限的深度强化学习

为了优化城市资源分配，本文研究了基于 Deep RL 方法对于资源分配的约束条件以及对模拟器的表现

Dec, 2018

强化学习中带任意约束的随机动作的生成建模

通过应用条件正则流来紧凑表示随机策略，并采用无效行为拒绝方法更新基础策略，我们解决了离散多维，无序的大型动作空间中的优化策略问题，实验表明我们的方法具有较好的可扩展性和对任意状态下行为分布的条件限制的能力。

Nov, 2023

将行为约束纳入在线 AI 系统

通过行为约束的观察来学习一组行为约束的新型在线代理，称为 Behavior Constrained Thompson Sampling（BCTS）。我们提供了一个新算法，允许在遵守外生约束条件的情况下进行在线学习。我们的实验表明，这种代理能够在行为约束集合内运行，而不会明显降低其整体奖励性能。

Sep, 2018

随机博弈中的在线强化学习

本文研究了关于平均奖励随机博弈的在线强化学习算法 UCSG，在同类算法中取得了更好的效果，可以获得亚线性遗憾和稳定收敛的同时检索到均衡状态，提高了博弈的竞争性能。

Dec, 2017

深度强化学习用于实时地面延误计划修订与对应航班延误分配

该论文研究了地面延误计划（GDP），它是一种在航空交通管理中常用的交通管理计划，用于协调机场的容量和需求差异。通过采用强化学习技术，该论文开发了两个强化学习模型：行为克隆（BC）和保守型 Q 学习（CQL）。这些模型旨在通过利用复杂的奖励函数来提高 GDP 的效率，该函数综合考虑了地面延误、空中延误和航站区域拥堵。该论文使用新瓦克自由国际机场（EWR）2019 年的真实运行数据进行模拟，并旨在提前设定机场计划速率。尽管经过了全面的建模和模拟，但初始结果表明模型在学习方面存在困难，可能是由于过于简化的环境假设。该论文讨论了遇到的挑战，评估了模型在实际运行数据上的表现，并概述了改进 ATM 中强化学习应用的未来方向。

May, 2024

面向延迟的物联网任务调度的深度强化学习在空天地一体化网络中的应用

本文旨在设计一种任务调度策略，以最小化所有任务的离线和计算延迟，同时满足无人机能源容量约束下的延迟导向物联网服务需求，并考虑到任务到达动态变化的情况，提出了基于风险敏感的强化学习算法来解决能耗风险约束下的决策问题。

Oct, 2020

基于图表示的可扩展列车时刻表重排的强化学习

火车时刻表重新调度的研究中，通过基于强化学习的方法，设计了一个简单的有向图来表示问题，并利用图神经网络自动提取信息状态；通过改变解决方案的构建过程，使得决策模型与问题规模解耦合，确保生成方案的可行性；为模型设计了一个学习课程来处理不同程度延误的情况；并且提出了一个简单的局部搜索方法，显著提高了解决方案的质量，实验结果证明了该方法在解决各种不同程度火车延误和规模问题时比手工规则和现有解决方法具有更好的性能。

Jan, 2024