可人生成的敌制式示例
研究发现标准的神经网络产生对抗样本的方法在面临视角改变、噪声和其他自然变换的情况下无法在物理世界中持续地欺骗神经网络分类器,但此研究成功演示了存在强韧性的三维对抗性目标,提出了第一个能在所选择的转换分布中产生对抗性示例的算法,制造了首批物理对抗物体。
Jul, 2017
利用黑色贝塞尔曲线,通过将其覆盖在输入图像上来欺骗目标分类器的 Adversarial Doodles 提供了对攻击和分类器输出之间关系的可描述和引人入胜的见解。
Nov, 2023
本文提出了一种新类的对抗样本 ——“语义对抗样本”,即通过对图像进行任意扰动来欺骗模型,但修改后的图像在语义上代表的仍是原始图像,通过构建约束优化问题和基于人类认知系统的形状偏置特性的对抗变换,生成对抗图像的颜色转移极大影响了 Deep neural networks 模型精度。
Mar, 2018
本文提出了一种使用生成敌对网络在语义空间中搜索自然和易读的对抗性样本的框架,以验证黑盒子分类器的鲁棒性,并证明该方法可在图像分类,文本蕴含和机器翻译等广泛应用中有效。
Oct, 2017
该研究提出了新型生成模型,用于制造近似自然图像但又能欺骗先前训练好的模型的略微扰动的对抗性样本。通过在具有挑战性的高分辨率数据集上的实验,它证明了这种扰动具有高弄虚率和较小的扰动规模,并且比当前的迭代方法更快。
Dec, 2017
通过引入语义感知扰动来生成有效和逼真的对抗性样本,该方法在复杂数据集(如 ImageNet 和 MSCOCO)上针对图像分类和图像字幕任务进行了有效应用,且经综合用户研究证明其较其他攻击更为逼真。
Apr, 2019
本文介绍了一种基于对抗样本的算法,称为 AdvDM,用于生成能够保护画家版权的扩散模型(DMs)的对抗样本。研究人员通过基于逆向过程采样的不同潜在变量实现了 Monte-Carlo 估计。大量实验表明,估计得到的对抗样本能够有效地阻止 DMs 提取其特征。
Feb, 2023
通过黑盒基于人口的优化算法生成有迷惑性的语义和语法类似的对抗样本,不仅能提高情感分析和文本蕴涵模型的错误率,还能在 20 名人类注释者中得到 92.3% 的标签正确分类。进一步讨论了对抗训练作为一种防御的尝试,但未能产生改进,说明了这种对抗样本的强大和多样性。我们希望此研究能够鼓励研究人员追求提高自然语言域下深度神经网络的鲁棒性。
Apr, 2018
通过有限的人类对抗样本生成更有用的对抗样本,提高模型鲁棒性,对抗训练框架在 ANLI 和仇恨言论检测数据集中展示了其优势,同时训练合成对抗样本提高了模型对未来轮次的鲁棒性。
Oct, 2023