SemRoDe: 针对词级攻击鲁棒的学习表示的宏观对抗训练

Mar, 2024

SemRoDe: 针对词级攻击鲁棒的学习表示的宏观对抗训练

SemRoDe: Macro Adversarial Training to Learn Representations That are Robust to Word-Level Attacks

Brian Formento, Wenjie Feng, Chuan Sheng Foo, Luu Anh Tuan, See-Kiong Ng

TL;DR我们提出了一种名为Semantic Robust Defence (SemRoDe)的新方法，通过Macro Adversarial Training策略增强了语言模型的鲁棒性，通过对话题领域的对抗样本进行关联，提高了模型对未知对抗样本的处理能力。

Abstract

language models (LMs) are indispensable tools for natural language processing tasks, but their vulnerability to adversarial attacks remains a concern. While current research has explored adversarial training tech

发现论文，激发创造

基于组合优化的词级文本对抗攻击

本文提出了一种新颖的攻击模型，采用语义元替换和粒子群优化算法处理词级攻击中不适当的搜索空间缩减方法和低效的优化算法，实验结果表明该模型相对于基线方法在攻击成功率方面显著提高，可生成更高质量的对抗样本并通过对抗训练提高受害模型的鲁棒性。

Oct, 2019

对抗GLUE：一个用于评估语言模型鲁棒性的多任务基准

本文提出Adversarial GLUE（AdvGLUE）——一个新的多任务基准，系统地将14种文本对抗攻击方法应用于GLUE任务，进一步通过人工验证实现可靠注释，揭示了现代大规模语言模型面对各种类型对抗攻击漏洞的严重性，呼吁对更具隐蔽性和语义保持性的新型对抗攻击和新型强鲁棒性语言模型的发展。

Nov, 2021

通过预测和解释来提高模型的稳健性的对抗训练

本文提出了一种名为FLAT的特征级对抗性训练方法，该方法旨在通过正则化全局词重要性分数来调节模型在替换词及其同义词的原始/对抗性示例对中的理解保持一致，从而提高模型对预测和解释方面的鲁棒性。

Mar, 2022

文本对抗攻击中的语义保护

通过介绍 Semantics-Preserving-Encoder (SPE),提出了一种解决预先训练的文本编码器中存在的问题以及提高对抗性攻击例子质量的简单，全监督的句子嵌入技术，结果表明SPE显著提高了对抗性攻击的质量。

Nov, 2022

面向上下文语言表示的对抗训练

从预训练语言模型的角度调查对抗训练，提出了一种新的 extit{Contextualized representation-Adversarial Training} (CreAT)方法来全局优化对抗样例，显著提高性能表现，并让它们对超参数变化不敏感，该方法取得了广泛任务上的最新成果。

May, 2023

大型语言模型中的对抗攻击与防御：旧与新的威胁

过去十年来，人们对神经网络的鲁棒性进行了广泛的研究，但这个问题依然没有得到很好的解决。在这篇论文中，我们提出了改进新方法的鲁棒性评估和减少错误评估的第一组先决条件，同时指出了面向开源模型中恶意内容生成的嵌入空间攻击作为另一个可行的威胁模型。最后，我们通过一个最近提出的防御方法进行演示，展示了在没有针对大型语言模型的最佳实践的情况下，过高估计新方法的鲁棒性的容易性。

Oct, 2023

生成具有有效性和自然性的大型语言模型对抗样本

基于大型语言模型(LLMs)的语言理解和生成能力，我们提出了LLM-Attack，旨在使用LLMs生成既有效又自然的对抗性示例。实验结果表明LLM-Attack比基线模型在人类和GPT-4评估中表现优异，能够生成通常有效、自然，并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。

Nov, 2023

由噪音到清晰：通过文本嵌入的翻译解开大型语言模型攻击的对抗后缀

提出了一种能够将不可读的对抗性后缀转化为连贯可读文本的对抗性后缀嵌入翻译框架（ASETF），该方法在攻击成功率和提示文本的流畅性方面明显优于现有技术，并且可以推广为一种生成可成功攻击多种语言模型的可转移对抗性后缀的更广泛方法。

Feb, 2024

大型语言模型攻击的比较调查

通过综述各种在大型语言模型上攻击的形式及机制，以及其潜在影响和当前的防御策略，该论文探讨了大型语言模型的安全性和脆弱性方面的问题。研究主题包括旨在操纵模型输出的对抗性攻击、影响模型训练的数据污染，以及与训练数据利用相关的隐私问题。论文还探讨了不同攻击方法的有效性、大型语言模型对这些攻击的弹性以及对模型完整性和用户信任的影响。通过研究最新的研究成果，提供对大型语言模型的脆弱性和防御机制的深入了解，旨在引起人工智能社区的关注，并激发切实解决这些风险的方法。

Mar, 2024

评估大型语言模型的对抗性鲁棒性：一项实证研究

对大型语言模型的鲁棒性进行了攻击和评估，并在五项不同的文本分类任务上建立了新的鲁棒性基准，研究结果对可靠部署语言模型并推动可信人工智能系统的发展具有重要意义。

May, 2024