ICMLNov, 2020

强化学习中的政策教学:基于环境污染攻击

TL;DR研究发现存在一种针对强化学习的安全威胁,攻击者通过毒化学习环境的奖励和转移概率来强制执行特定的策略,提出了一种攻击代价度量的最优化框架,并在离线和在线两种情况下验证了攻击者可以通过一个优雅的攻击在很宽松的条件下让受害者代理执行任意策略,这表明强化学习代理在实践应用中存在很大的安全威胁。