AAAIDec, 2023

BadRL:针对强化学习的稀疏目标后门攻击

TL;DR我们提出了一种新方法 BadRL,它通过在训练和测试期间针对高攻击值的状态进行高度稀疏的后门毒化,从而有效地降低了被检测的几率,并且可以动态生成不同的触发模式来增强攻击的有效性。实验证明,BadRL 在多个典型强化学习任务中能够在训练期间以极小的毒化操作(占总训练步骤的 0.003%)显著降低受害智能体的性能,并在测试期间进行不频繁的攻击。