Nov, 2018

基于实时信息的绿色安全游戏的深度强化学习

TL;DR本研究提出了一种新的游戏模型GSG-I,结合了顺序移动和实时信息等关键元素,设计了基于双预言机框架和策略空间响应预言机的深度强化学习算法DeDOL来计算巡逻策略,以对抗最佳响应的攻击者,探索游戏结构使用领域特定启发式策略和构建多个局部模态以进行高效和并行化训练。这是首次尝试将深度Q-Learning应用于安全游戏。