文本分类器中的对抗攻击与维度

Apr, 2024

Adversarial Attacks and Dimensionality in Text Classifiers

Nandish Chattopadhyay, Atreya Goswami, Anupam Chattopadhyay

TL;DR机器学习算法的对抗性攻击是人工智能在很多实际应用中的主要障碍之一，通过在测试样本中引入微小和结构化的扰动，对高性能神经网络造成显著影响。本文在自然语言处理领域特别是文本分类任务中研究对抗性示例，探究了对抗性容易受到攻击的原因，特别是与模型固有维度的相关性。我们发现对抗性样本的嵌入维度与模型输入样本具有相同嵌入维度时的有效性之间存在很强的相关性，利用这种敏感性设计了一种对抗性防御机制。通过使用各种固有维度的集成模型来阻止攻击，我们在多个数据集上测试了其有效性。我们还研究了使用不同距离度量来衡量对抗性扰动的问题。对于所有上述研究，我们在具有不同维度的多个模型上进行了测试，并使用词向量级对抗性攻击来证实这些发现。

Abstract

adversarial attacks on machine learning algorithms have been a key deterrent to the adoption of AI in many real-world use cases. They significantly undermine the ability of high-performance →

adversarial attacks machine learning algorithms neural networks natural language processing adversarial defense mechanism

发现论文，激发创造

关于通过扰动潜在表示进行文本分类的对抗性示例

通过使用分类器的梯度，我们创建了一个衡量文本分类器鲁棒性的框架。

May, 2024

自然语言处理中深度学习模型的对抗攻击调查

该研究综述了最近针对文本深度神经网络攻击的研究。通过研究，讨论了现有攻击对文本数据不可直接应用的问题，并提出了关于这个话题的建议。

Jan, 2019

识别文本分类器的对抗攻击

本文为对文本分类器对抗攻击的取证研究提供了第一步，通过分析对抗文本来确定其创建方法，提供了一个广泛的攻击检测和标记数据集，使用该数据集开发和基准测试攻击识别的多个分类器，并展示了三类特征对这些任务的有效性。

Jan, 2022

分析对可解释机器学习的敌对样本的影响

本文分析对文本分类问题中的解释模型造成的对抗攻击的影响，包括开发一个基于机器学习的分类模型，引入对抗性扰动来理解分类性能，并在攻击之前和之后分析和解释模型的可解释性。

Jul, 2023

测量对抗数据集

在广泛应用于各个领域的 AI 系统的时代，确保对抗性鲁棒性变得越来越重要，以维护安全性并防止不可取的错误。本研究对描述 NLP 任务中文本实例的现有可量化指标进行了系统调查，并选择了几个当前的对抗效应数据集，比较了原始数据与对抗样本之间的分布差异，研究结果揭示了这些数据集在度量角度上更具挑战性的原因及其与基本假设的一致性。

Nov, 2023

对抗性攻击如何干扰表面稳定准确的分类器

通过对高维度输入数据的实践系统进行观察，我们展示了对于那些容易构建的对抗性攻击及其对大多数模型的威胁性，以及随机扰动的鲁棒性同时易受影响的基本特性，证实了这一现象。然而，令人惊讶的是，即使对于分类器决策边界与训练和测试数据之间只有很小的边距，也很难通过随机取样的扰动来检测到对抗性示例，因此需要更严格的对抗性训练。

Sep, 2023

自动对抗性发现用于安全分类器

安全分类器和对抗攻击是在线论坛（如社交媒体和聊天机器人）中减少毒性的关键，然而它们仍然容易受到新兴且数量众多的对抗攻击的影响。本文提出了一种自动对抗发现安全分类器的方法，以在以前未见的伤害维度上寻找新的攻击方法，以揭示分类器的新弱点。我们通过两个主要指标来衡量这个任务的进展（1）对抗成功性：攻击是否欺骗了分类器？（2）维度多样性：攻击是否代表了以前未见的伤害类型？通过对 CivilComments 毒性任务中的现有攻击生成方法进行评估，发现它们存在局限性：词汇扰动攻击无法欺骗分类器，而基于提示的 LLM 攻击具有更高的对抗成功性，但缺乏维度多样性。即使是我们最有效的基于提示的方法，仍然只在攻击的以前未见的伤害维度上成功了 5％的时间。自动发现攻击的新的有害维度至关重要，并且在这个新任务上未来研究有巨大的潜力。

Jun, 2024

文本中健壮的深度神经网络：一项调查

本文对英语和中文文本领域的生成对抗性文本的对抗攻击和防御方法进行了全面的调查，并基于干扰单位对现有的对抗技术进行分类，从不同的自然语言处理任务的视角介绍了对抗技术，并从根源上探讨了领域中对抗攻击和防御的挑战和未来研究方向。

Feb, 2019

对敌对机器学习的阅读调查：敌对攻击及其理解

深度学习使我们能够高效地训练复杂数据的神经网络。然而，随着研究的增长，神经网络的几个弱点也被曝光。对抗机器学习是一种特定的研究领域，旨在利用和理解导致神经网络因输入接近原始输入而错误分类的一些弱点。提出了一类称为对抗性攻击的算法，用于在不同领域的各种任务上使神经网络错误分类。随着对对抗性攻击的广泛研究，了解对抗性攻击的分类是至关重要的。这将有助于我们以系统性的方式了解弱点，并帮助我们减轻对抗性攻击的影响。本文对现有的对抗性攻击及其不同角度的理解进行了概述，并简要介绍了现有对抗性防御措施及其在减轻对抗性攻击效果方面的局限性。此外，我们讨论了对抗机器学习领域未来研究的方向。

Aug, 2023

对抗样本的有趣特性

论文研究了神经网络模型的不确定性对于对抗样本的产生具有决定性作用，与体系结构、数据集和训练协议无关，表现为对抗误差具有与对抗扰动大小呈幂律的普适性，通过减小预测熵来提高对抗鲁棒性，在 CIFAR10 上使用神经架构搜索找到更鲁棒的架构。

Nov, 2017