测量对抗数据集
使用对抗性过滤技术构建了两个具有挑战性的数据集,分别是 ImageNet-A 和 ImageNet-O,这两个数据集的出现使得计算机视觉模型的性能大幅下降,而现有的数据增强技术和公共训练数据集的使用带来的改进有限。
Jul, 2019
机器学习算法的对抗性攻击是人工智能在很多实际应用中的主要障碍之一,通过在测试样本中引入微小和结构化的扰动,对高性能神经网络造成显著影响。本文在自然语言处理领域特别是文本分类任务中研究对抗性示例,探究了对抗性容易受到攻击的原因,特别是与模型固有维度的相关性。我们发现对抗性样本的嵌入维度与模型输入样本具有相同嵌入维度时的有效性之间存在很强的相关性,利用这种敏感性设计了一种对抗性防御机制。通过使用各种固有维度的集成模型来阻止攻击,我们在多个数据集上测试了其有效性。我们还研究了使用不同距离度量来衡量对抗性扰动的问题。对于所有上述研究,我们在具有不同维度的多个模型上进行了测试,并使用词向量级对抗性攻击来证实这些发现。
Apr, 2024
该研究提出了一个确定深度学习模型标签更改是否合理的框架,并且定义了一个自适应的鲁棒性损失,使用导出的经验公式,开发了相应的数据增强框架和评估方法,证明了其对确定性标签下的一阶最近邻分类的维持一致性,并提供了实证评估结果。
Jun, 2021
本文提出了一种使用生成敌对网络在语义空间中搜索自然和易读的对抗性样本的框架,以验证黑盒子分类器的鲁棒性,并证明该方法可在图像分类,文本蕴含和机器翻译等广泛应用中有效。
Oct, 2017
安全分类器和对抗攻击是在线论坛(如社交媒体和聊天机器人)中减少毒性的关键,然而它们仍然容易受到新兴且数量众多的对抗攻击的影响。本文提出了一种自动对抗发现安全分类器的方法,以在以前未见的伤害维度上寻找新的攻击方法,以揭示分类器的新弱点。我们通过两个主要指标来衡量这个任务的进展(1)对抗成功性:攻击是否欺骗了分类器?(2)维度多样性:攻击是否代表了以前未见的伤害类型?通过对 CivilComments 毒性任务中的现有攻击生成方法进行评估,发现它们存在局限性:词汇扰动攻击无法欺骗分类器,而基于提示的 LLM 攻击具有更高的对抗成功性,但缺乏维度多样性。即使是我们最有效的基于提示的方法,仍然只在攻击的以前未见的伤害维度上成功了 5%的时间。自动发现攻击的新的有害维度至关重要,并且在这个新任务上未来研究有巨大的潜力。
Jun, 2024
通过构建自然对抗数据集来评估模型的鲁棒性,研究表明基于自动弱监督标注的概率标签,以及对输入数据进行对抗排序的方法在医疗和非医疗案例研究中具有高效性和统计有效性。
Sep, 2023
本文重新思考了 Textual Adversarial Samples 在安全场景下的研究范式,提出了安全导向的对抗性 NLP (Security-oriented adversarial NLP,SoadNLP) 的研究重点应该放在考虑真实的对手目标,并以此为基础设计实际有用的攻击和防御方法,为此我们创建了一个新的数据集 Advbench,并提出了可通过启发式规则简单实现真实对手目标的方法。通过实验,我们的方法表现获得了更高的实际价值,为 SoadNLP 的研究提供了一个新的基准。
Oct, 2022
通过 ADVSCORE 量化和揭示数据集的对抗特征,同时使用 ADVSCORE 评估高质量对抗数据集,验证其在愚弄模型而不愚弄人类方面的能力,并揭示人类写作所使用的愚弄模型而不愚弄人类的对抗策略,从而指导揭示语言模型的弱点和生成可靠的对抗样本。
Jun, 2024
本文研究通过引入几何度量法来检测深度学习模型中的对抗样本,并以 MNIST 数据集和两个医学数据集为例,对密度和覆盖度两种几何度量法进行了实证研究,结果表明这两种度量法能够检测到对抗样本并能在机器学习系统中使用来监控可能的对抗性例子或相关病理因素,为进一步研究机器学习系统的安全提供了基础。
Jun, 2022