Mar, 2020

自适应奖励中毒攻击对强化学习的影响

TL;DR通过对 delta_t 的无穷范数约束,对回报污染攻击进行分类,并提出一种可达到霸权策略的快速自适应攻击策略,并通过实验演示使用先进的深度 RL 技术可以找到有效的回报污染攻击。