ICMLFeb, 2020

不致死的攻击使对抗学习更强大

TL;DR本研究提出了友好对抗训练 (FAT) 的新方法,其中通过提前停止最严格的对抗数据搜索算法,即早停止的 PGD,来最小化损失并利用自信的对抗数据更新当前模型,理论上可以通过对抗风险的上限来证明,实验证明不需要以自然泛化为代价也可以实现对抗强度。