自动对抗性发现用于安全分类器

ACLJun, 2024

Automated Adversarial Discovery for Safety Classifiers

Yash Kumar Lal, Preethi Lahoti, Aradhana Sinha, Yao Qin, Ananth Balashankar

TL;DR安全分类器和对抗攻击是在线论坛（如社交媒体和聊天机器人）中减少毒性的关键，然而它们仍然容易受到新兴且数量众多的对抗攻击的影响。本文提出了一种自动对抗发现安全分类器的方法，以在以前未见的伤害维度上寻找新的攻击方法，以揭示分类器的新弱点。我们通过两个主要指标来衡量这个任务的进展（1）对抗成功性：攻击是否欺骗了分类器？（2）维度多样性：攻击是否代表了以前未见的伤害类型？通过对 CivilComments 毒性任务中的现有攻击生成方法进行评估，发现它们存在局限性：词汇扰动攻击无法欺骗分类器，而基于提示的 LLM 攻击具有更高的对抗成功性，但缺乏维度多样性。即使是我们最有效的基于提示的方法，仍然只在攻击的以前未见的伤害维度上成功了 5％的时间。自动发现攻击的新的有害维度至关重要，并且在这个新任务上未来研究有巨大的潜力。

Abstract

safety classifiers are critical in mitigating toxicity on online forums such as social media and in chatbots. Still, they continue to be vulnerable to emergent, and often innumerable, adversarial attacks. Traditi

safety classifiers adversarial attacks automated adversarial discovery harm dimensions toxicity task

发现论文，激发创造

攻击生成器：构建对抗性攻击的系统方法

本篇论文阐述了机器学习领域中的敌对攻击，提出了一种名为 “攻击生成器” 的结构化方法并进行了应用于自动驾驶领域的计算机视觉系统语义分割和目标检测阶段的实践研究，然后针对定义捕获的模块进行了攻击生成，证明了该方法的实用性。

Jun, 2019

文本分类器中的对抗攻击与维度

机器学习算法的对抗性攻击是人工智能在很多实际应用中的主要障碍之一，通过在测试样本中引入微小和结构化的扰动，对高性能神经网络造成显著影响。本文在自然语言处理领域特别是文本分类任务中研究对抗性示例，探究了对抗性容易受到攻击的原因，特别是与模型固有维度的相关性。我们发现对抗性样本的嵌入维度与模型输入样本具有相同嵌入维度时的有效性之间存在很强的相关性，利用这种敏感性设计了一种对抗性防御机制。通过使用各种固有维度的集成模型来阻止攻击，我们在多个数据集上测试了其有效性。我们还研究了使用不同距离度量来衡量对抗性扰动的问题。对于所有上述研究，我们在具有不同维度的多个模型上进行了测试，并使用词向量级对抗性攻击来证实这些发现。

Apr, 2024

大型语言模型的强大安全分类器：对抗性提示屏蔽

大型语言模型的安全性是一个重要问题，本研究提出了 Adversarial Prompt Shield（APS）这个轻量级模型，能够有效检测和抵御对抗抓取；同时，我们还引入了自动生成对抗训练数据集的新策略，命名为 Bot Adversarial Noisy Dialogue（BAND）数据集，以提高安全分类器的鲁棒性。经过评估，我们的分类器成功率提高了 60%，为下一代更可靠和韧性更强的对话代理铺平了道路。

Oct, 2023

高风险可靠性的对抗训练

通过对抗训练，可以增加高风险环境下 AI 安全性，本文以安全语言生成任务为测试，使用一系列对抗训练技术来寻找并消除分类器中的错误，提高输出的鲁棒性和可靠性。

May, 2022

测量对抗数据集

在广泛应用于各个领域的 AI 系统的时代，确保对抗性鲁棒性变得越来越重要，以维护安全性并防止不可取的错误。本研究对描述 NLP 任务中文本实例的现有可量化指标进行了系统调查，并选择了几个当前的对抗效应数据集，比较了原始数据与对抗样本之间的分布差异，研究结果揭示了这些数据集在度量角度上更具挑战性的原因及其与基本假设的一致性。

Nov, 2023

对敌对攻击和防御的恶意软件分类调查

这项调查研究针对网络安全中恶意软件分类展示了当前对抗性攻击和防御策略的研究，将方法分类为生成模型、基于特征的方法、集成方法和混合策略，并评估了每个领域的优点和缺点，同时讨论了常用的数据集和评估标准，最后提出了开放性研究难题和未来的研究选项。

Dec, 2023

基于数据的黑盒分类器探索性攻击在对抗领域中的应用

本文提出了一种基于数据推动的黑客攻击方法 —— 基于分类模型的欺骗方法，并通过 Google Cloud Prediction 平台进行了实验验证，发现分类器天生易受攻击，并且可以轻松地进行逃避攻击，这为构建安全的机器学习框架提供了启示。

Mar, 2017

识别文本分类器的对抗攻击

本文为对文本分类器对抗攻击的取证研究提供了第一步，通过分析对抗文本来确定其创建方法，提供了一个广泛的攻击检测和标记数据集，使用该数据集开发和基准测试攻击识别的多个分类器，并展示了三类特征对这些任务的有效性。

Jan, 2022

安全第一：一种对抗方法以提高社交机器人检测的效果

该研究采用基因算法综合当前最先进的社交机器人，通过操纵 Twitter 社交机器人的发展演变，提高社交机器人检测技术的有效性。结果表明，该方法逃避了当前的检测技术，但揭示了人们改进这些技术所需的要素。

Apr, 2019

安全驱动的未学习扩散模型是否生成？对于现在来说，仍然易于生成不安全的图像

我们提出了一种基于对抗攻击的评估框架，用于评估安全驱动的模型在消除不需要的概念、风格和对象方面的鲁棒性，证明了我们的方法在与最先进的对抗提示方法进行对比时的效果和效率。

Oct, 2023