ImageNet 比赛中的无限制对抗攻击
本研究引入了一个两人对弈的竞赛,用于评估机器学习系统的安全性和鲁棒性,针对非范数约束的对手进行研究。 防御方提交机器学习模型,试图在非对手数据上实现高准确性和覆盖率,并在对抗性输入上没有自信错误。 攻击者试图通过寻找任意的明确输入,在其高置信度下将错误标签分配给模型来破坏防御。 我们提出了一个简单的明确数据集(“鸟或自行车”)作为本竞赛的一部分。 我们希望这个竞赛能够帮助更全面地评估机器学习模型的最坏对抗风险。
Sep, 2018
本文提出了一种新的威胁模型,即无限制敌对样本。通过条件生成模型,利用辅助分类生成对抗网络(AC-GAN)对数据进行分类,搜索潜空间并生成可能是该类别的在传统敌对攻击中被误分类的图像,证明它们确实属于该类别,并表明无限制敌对样本可以绕过传统的敌对训练和认证的攻击防御方法。
May, 2018
通过引入语义感知扰动来生成有效和逼真的对抗性样本,该方法在复杂数据集(如 ImageNet 和 MSCOCO)上针对图像分类和图像字幕任务进行了有效应用,且经综合用户研究证明其较其他攻击更为逼真。
Apr, 2019
通过对图像领域的方法进行调查,我们注意到对所提议的图像修改进行人类评估的需求。基于现有的图像生成质量人类评估框架,我们提出了 SCOOTER - 一种用于无限制图像攻击的评估框架。它为研究人员提供了进行具有统计意义的人类实验的指南,标准化问题以及可直接使用的实现。我们提出了一种框架,允许研究人员分析他们的无限制攻击是否真正不可察觉。
Apr, 2024
该论文提出了一种基于内容的无限制对抗攻击框架,通过利用表示自然图像的低维流形将图像映射到该流形并优化其沿着其对抗方向以实现对抗攻击,实现了基于稳定扩散的对抗内容攻击,可生成具有多种对抗内容的高度可转移的无限制对抗样例。
May, 2023
利用图像翻译技术生成无限制的对抗样本,欺骗目标脸部识别系统并通过认证防御,实现了攻击成功率约为 90% 和 80% 的结果,同时保持个体的可识别性和感知逼真度。
May, 2019
本文提出了一种名为 “无需输入” 的攻击方法,用于深度神经网络的对抗攻击,该方法不需要进行大量的查询,可以通过任意图像添加可以感知的扰动来生成对抗性图像。该方法通过灰度图像的初始化和局部扰动与平铺技术来显着降低了查询复杂度,并成功击败了 Clarifai 食品检测 API 和百度动物识别 API。
Sep, 2018
提出了一种名为 ImageNet-UA 的模型鲁棒性测试框架,旨在测试模型对未遭遇过的对抗攻击的鲁棒性。该框架引入了四种新的对抗攻击,与 L_inf 等现有鲁棒性评估方法相比,ImageNet-UA 能更好地展现模型的鲁棒性。目前的防御措施在面对未预料的攻击时提供很少的保障,期望使用更加多样化和现实的 ImageNet-UA 能有助于开发泛化性更好的防御措施。
Aug, 2019