为预训练语言模型重新思考文本对抗防御
本文提出了一种紧凑且性能不受影响的框架 ADFAR,采用辅助异常检测分类器和多任务学习过程较好地识别了对抗性输入的样本,并应用了频率感知的随机化过程防御对抗词置换攻击, 在各种任务上显着优于其他防御方法,且没有损害 PrLMs 的整体性能。
May, 2021
本文通过提出一种异常检测器来评估预训练语言模型的鲁棒性,发现现有的对鲁棒性的评估方法是基于并不常见的对抗样本,进而将该方法用于数据增强和防御方案,取得了比其他方法更高的准确率。
Mar, 2022
基于大型语言模型 (LLMs) 的语言理解和生成能力,我们提出了 LLM-Attack,旨在使用 LLMs 生成既有效又自然的对抗性示例。实验结果表明 LLM-Attack 比基线模型在人类和 GPT-4 评估中表现优异,能够生成通常有效、自然,并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。
Nov, 2023
使用五种不同的大型语言模型(LLMs)进行情感分类任务时,针对三种不同类型的对抗攻击,该研究分析了攻击的有效性、效率和实用性,发现词级攻击更有效,而字符级攻击则更实用且所需的改动和查询数量较少,因此在开发对抗性防御策略以训练更具鲁棒性的 LLMs 用于智能文本分类应用时需考虑这些差异。
Jun, 2024
在本文中,我们提出了一个针对更广泛的对抗性攻击类别的框架,旨在对机器生成的内容进行微小扰动以逃避检测,通过对动态场景中的对抗性学习来评估当前检测模型对这种攻击的鲁棒性的潜力提升。实证结果发现,现有的检测模型可以在仅 10 秒内受到破坏,将机器生成的文本误分类为人类撰写的内容。尽管观察到模型鲁棒性方面的一些改进,但实际应用仍面临重大挑战,这些发现为 AI 文本检测器的未来发展提供了启示,强调了对更准确和鲁棒的检测方法的需求。
Apr, 2024
本文探讨了最新的预训练语言模型(PLMs),包括 GPT-3 和 BERT,存在安全漏洞,使其容易受到对抗性攻击的影响,并提出了一种有效的对抗方法来测试模型的语义相似性并减少其分类质量。
Sep, 2022
大型语言模型的安全漏洞对其进行了深入理解。最近的研究表明,文本优化器可以产生绕过审核和对齐的越狱提示。我们从对抗机器学习的丰富研究基础中提出三个问题:在这个领域中,哪些威胁模型实际上是有用的?基线防御技术在这个新领域中的表现如何?LLM 安全性与计算机视觉有何不同?我们对 LLM 上的领先对抗性攻击评估了几种基线防御策略,讨论了每种策略在各种可行和有效的设置中的情况。特别地,我们研究了三种防御类型:检测(基于困惑度),输入预处理(改写和重标记)和对抗训练。我们讨论了白盒和灰盒设置,并讨论了每种考虑的防御的鲁棒性和性能权衡。令人惊讶的是,我们在过滤和预处理方面获得了比其他领域(如视觉)预期的更多成功,这首次表明在这些领域中可能对这些防御的相对优势进行了不同的权衡。
Sep, 2023
对基于机器学习的自然语言处理模型的对抗攻击存在诸多问题,本研究通过对 378 个人的实验调查,发现现有文本攻击在需要人类参与的实际场景中是不切实际的,从而得出应该把人类的感知度作为文本攻击的首要成功标准。
May, 2023
调查了大型语言模型(LLMs)是否有内在能力从良性样本中制造对抗性样本来欺骗现有的安全措施,实验结果表明,LLMs 成功地找到了对抗性扰动,有效地破坏了仇恨言论检测系统,这对依赖 LLMs 的(半)自主系统与现有系统和安全措施的交互带来了重要挑战。
Feb, 2024
本文提出了一种新的对抗攻击策略,旨在找到与原始文本相似度极高的对抗文本,同时引入最小扰动;实验结果表明,与现有攻击方法相比,我们的方法在四个基准数据集上的成功率更高,扰动率更低。
Nov, 2022