可人生成的敌制式示例

ICLRSep, 2023

Human-Producible Adversarial Examples

David Khachaturov, Yue Gao, Ilia Shumailov, Robert Mullins, Ross Anderson...

TL;DR用区别性渲染的方法，我们首次提出了一种生成真实世界中可由人们创造的对抗性样本的方法，只需要一支马克笔。我们通过绘制少量线条便可以干扰 YOLO 模型，并通过数字和模拟环境进行全面评估，展示了我们的方法的有效性。

Abstract

visual adversarial examples have so far been restricted to pixel-level image manipulations in the digital world, or have required sophisticated equipment such as 2D or 3D printers to be produced in the physical real world. We present the first ever method of generating →

visual adversarial examples adversarial tags differential rendering human-producible real-world adversarial examples

发现论文，激发创造

合成鲁棒性对抗性样本

研究发现标准的神经网络产生对抗样本的方法在面临视角改变、噪声和其他自然变换的情况下无法在物理世界中持续地欺骗神经网络分类器，但此研究成功演示了存在强韧性的三维对抗性目标，提出了第一个能在所选择的转换分布中产生对抗性示例的算法，制造了首批物理对抗物体。

Jul, 2017

面向神经网络的不可察觉且强韧对抗样本攻击

该研究提出了一种新的对抗样本攻击方法，考虑到人类感知系统并最大化制作的对抗样本的噪声容忍度，实验结果证明了该技术的有效性。

Jan, 2018

对抗性涂鸦：可解释和可人工绘制的攻击提供可描述的洞察

利用黑色贝塞尔曲线，通过将其覆盖在输入图像上来欺骗目标分类器的 Adversarial Doodles 提供了对攻击和分类器输出之间关系的可描述和引人入胜的见解。

Nov, 2023

语义对抗样本

本文提出了一种新类的对抗样本 ——“语义对抗样本”，即通过对图像进行任意扰动来欺骗模型，但修改后的图像在语义上代表的仍是原始图像，通过构建约束优化问题和基于人类认知系统的形状偏置特性的对抗变换，生成对抗图像的颜色转移极大影响了 Deep neural networks 模型精度。

Mar, 2018

生成自然对抗样本

本文提出了一种使用生成敌对网络在语义空间中搜索自然和易读的对抗性样本的框架，以验证黑盒子分类器的鲁棒性，并证明该方法可在图像分类，文本蕴含和机器翻译等广泛应用中有效。

Oct, 2017

生成对抗扰动

该研究提出了新型生成模型，用于制造近似自然图像但又能欺骗先前训练好的模型的略微扰动的对抗性样本。通过在具有挑战性的高分辨率数据集上的实验，它证明了这种扰动具有高弄虚率和较小的扰动规模，并且比当前的迭代方法更快。

Dec, 2017

通过语义操纵生成无限制对抗性样本

通过引入语义感知扰动来生成有效和逼真的对抗性样本，该方法在复杂数据集（如 ImageNet 和 MSCOCO）上针对图像分类和图像字幕任务进行了有效应用，且经综合用户研究证明其较其他攻击更为逼真。

Apr, 2019

对抗样本的良性应用：通过对抗样本防止扩散模型模仿绘画

本文介绍了一种基于对抗样本的算法，称为 AdvDM，用于生成能够保护画家版权的扩散模型（DMs）的对抗样本。研究人员通过基于逆向过程采样的不同潜在变量实现了 Monte-Carlo 估计。大量实验表明，估计得到的对抗样本能够有效地阻止 DMs 提取其特征。

Feb, 2023

生成自然语言对抗样本

通过黑盒基于人口的优化算法生成有迷惑性的语义和语法类似的对抗样本，不仅能提高情感分析和文本蕴涵模型的错误率，还能在 20 名人类注释者中得到 92.3% 的标签正确分类。进一步讨论了对抗训练作为一种防御的尝试，但未能产生改进，说明了这种对抗样本的强大和多样性。我们希望此研究能够鼓励研究人员追求提高自然语言域下深度神经网络的鲁棒性。

Apr, 2018

破解、模仿、修复：通过生成人类攻击提高鲁棒性

通过有限的人类对抗样本生成更有用的对抗样本，提高模型鲁棒性，对抗训练框架在 ANLI 和仇恨言论检测数据集中展示了其优势，同时训练合成对抗样本提高了模型对未来轮次的鲁棒性。

Oct, 2023