Apr, 2021

基于梯度的对抗攻击:针对文本转换器

TL;DR本文提出了首个基于梯度的通用攻击转换器模型算法,通过搜索由连续矩阵参数化的对抗性样本分布实现梯度优化,并在各种自然语言任务中证明其白盒攻击表现的最先进性。此外,本文还展示使用对对抗分布进行采样实现的强大黑盒转移攻击匹配或超越现有方法,而仅需要硬标签输出。