Sep, 2022

深度强化学习中的奖励延迟攻击

TL;DR这篇论文探讨了一种新型攻击方法,利用强同步假设漏洞,将奖励信息延迟一段时间以影响强化学习中的 Q-learning 算法,攻击模式可分为有目标攻击和无目标攻击,同时提出了一种威胁模型以抵抗奖励信息的顺序被篡改的攻击。