Sep, 2020

基于漏洞感知的在线 RL 中的毒化机制及未知动态

TL;DR通过对异构攻击模型进行全面研究,本文建立了一个通用的强化学习在线毒化框架。在没有任何先验知识的情况下,我们提出了一种名为 VA2C-P 的策略毒化算法,通过度量 RL 的稳定半径来实现漏洞感知,成功防止了代理学习良好策略并教会代理方案收敛于目标方案.