我看到了死人:图像文本模型的灰盒对抗攻击
本文介绍了一种针对自然语言处理分类器的黑盒硬标签攻击的新方法,其中没有模型信息被公开,攻击者只能查询模型以获得分类器的最终决策,该攻击场景适用于用于情感分析和有毒内容检测等安全敏感应用的真实世界黑盒模型。
Aug, 2020
本文提出了一种新的算法 Show-and-Fool,用于研究神经图像字幕系统在机器视觉和感知中健壮的语言基础,该算法通过两种评估方法检查神经图像字幕系统是否能够误导输出某些随机选择的字幕或关键字。实验证明,我们的算法可以成功地制作出视觉相似的对抗性例子,对其他图像字幕系统高度可传递,并导致了视觉语言基础的新型健壮性影响和新的洞察。
Dec, 2017
本文介绍了对抗性训练及其在构建鲁棒模型方面的应用,提出了新型白盒和黑盒攻击,即灰盒对抗攻击,提出了一种新颖的模型鲁棒性评估方法,并提出了一种新型的对抗性训练:灰盒对抗训练,其使用模型的中间版本来引导敌手生成更加有效的对抗样本,实验证明此方面的成果优于传统方法。
Aug, 2018
本研究针对多模态(图像 + 文本)模型的弱点进行分析,并提出了基于部分模型知识和访问下的攻击方法。同时,我们发现对多模态分类进行的攻击比仅仅对单模态文本或图像分类的攻击更强,而我们尝试的对多模态分类器进行的单模态图像攻击比文本的字符增强攻击更为有效。
Nov, 2020
本文提出了一种新的黑盒对抗攻击方法,通过使用预训练模型学习低维嵌入,然后在此嵌入空间内进行高效搜索,从而攻击未知目标网络。该方法能够生成具有高级语义模式的对抗性扰动,易于迁移,可大大提高黑盒对抗攻击的查询效率。作者在 MNIST、ImageNet 和 Google Cloud Vision API 上进行评估,并在 CIFAR10 和 ImageNet 上攻击对抗性防御网络,取得了良好的攻击效果。
Nov, 2019
本文探讨了基于文字的机器学习模型对视觉输入的抵抗力,并表明他们仍然容易受到以文本编码的视觉对抗性示例的攻击,使用 Unicode 功能组合变音符号来操纵编码文本,演示使用遗传算法生成黑盒威胁视觉对抗性示例的效力,并进行用户研究以证明这些模型欺骗性示例不会影响人类理解。最后,通过制造针对 Facebook,Microsoft,IBM 和 Google 发布的生产模型的对抗性示例,展示了这些攻击的实际效果。
Jun, 2023
在本文中,我们提出了一个针对更广泛的对抗性攻击类别的框架,旨在对机器生成的内容进行微小扰动以逃避检测,通过对动态场景中的对抗性学习来评估当前检测模型对这种攻击的鲁棒性的潜力提升。实证结果发现,现有的检测模型可以在仅 10 秒内受到破坏,将机器生成的文本误分类为人类撰写的内容。尽管观察到模型鲁棒性方面的一些改进,但实际应用仍面临重大挑战,这些发现为 AI 文本检测器的未来发展提供了启示,强调了对更准确和鲁棒的检测方法的需求。
Apr, 2024
通过将目标响应转化为目标图像,并从目标响应推断出合理的指令,我们提出了一种以指令为导向的有针对性攻击方法,该方法利用共享相同视觉编码器的本地替代模型来提取对抗示例和目标图像的指令感知特征,优化对抗示例以最小化这两个特征之间的距离,从而提高攻击性能和可迁移性。
Dec, 2023
提出了一种基于强化学习的方法,在黑盒设置中生成对抗性示例,能够成功地欺骗针对 IMDB 情感分类任务和 AG 新闻语料库新闻分类任务的模型,并且生成的对抗示例保留了原始文本的语义。
Sep, 2019