Oct, 2022

离线强化学习数据集中的后门隐藏

TL;DR本文提出了一种新的后门攻击方法 Baffle,通过实验发现当前所有离线强化学习算法都无法免疫这种攻击,并且我们插入的后门难以被广泛采用的防御方法检测出来,因此需要更有效的保护机制。