大型语言模型哨兵：通过 LLM 代理推进对抗鲁棒性

May, 2024

大型语言模型哨兵：通过 LLM 代理推进对抗鲁棒性

Large Language Model Sentinel: Advancing Adversarial Robustness by LLM Agent

Guang Lin, Qibin Zhao

TL;DR我们引入了一种名为 LLAMOS 的新型防御技术，通过净化输入到目标大型语言模型之前的对抗文本示例，以增强大型语言模型的对抗鲁棒性。我们的方法包括两个主要组成部分：a) 代理指示，可以模拟新的代理进行对抗防御，通过最小限度地更改字符来保持句子的原始含义，并防御攻击；b) 防御指导，提供修改干净或对抗性示例以确保有效防御和目标大型语言模型准确输出的策略。通过在开源和闭源大型语言模型上进行广泛实验，我们的方法可以有效抵御对抗性攻击，从而提高对抗鲁棒性。

Abstract

Over the past two years, the use of large language models (LLMs) has advanced rapidly. While these LLMs offer considerable convenience, they also raise security concerns, as LLMs are vulnerable to adversarial attacks

large language models adversarial attacks llamos adversarial defense adversarial robustness

发现论文，激发创造

探索大型语言模型的对抗能力

调查了大型语言模型（LLMs）是否有内在能力从良性样本中制造对抗性样本来欺骗现有的安全措施，实验结果表明，LLMs 成功地找到了对抗性扰动，有效地破坏了仇恨言论检测系统，这对依赖 LLMs 的（半）自主系统与现有系统和安全措施的交互带来了重要挑战。

Feb, 2024

对大规模语言模型的对抗欺骗攻击效率

使用五种不同的大型语言模型（LLMs）进行情感分类任务时，针对三种不同类型的对抗攻击，该研究分析了攻击的有效性、效率和实用性，发现词级攻击更有效，而字符级攻击则更实用且所需的改动和查询数量较少，因此在开发对抗性防御策略以训练更具鲁棒性的 LLMs 用于智能文本分类应用时需考虑这些差异。

Jun, 2024

大型语言模型中的对抗攻击与防御：旧与新的威胁

过去十年来，人们对神经网络的鲁棒性进行了广泛的研究，但这个问题依然没有得到很好的解决。在这篇论文中，我们提出了改进新方法的鲁棒性评估和减少错误评估的第一组先决条件，同时指出了面向开源模型中恶意内容生成的嵌入空间攻击作为另一个可行的威胁模型。最后，我们通过一个最近提出的防御方法进行演示，展示了在没有针对大型语言模型的最佳实践的情况下，过高估计新方法的鲁棒性的容易性。

Oct, 2023

评估大型语言模型的对抗性鲁棒性：一项实证研究

对大型语言模型的鲁棒性进行了攻击和评估，并在五项不同的文本分类任务上建立了新的鲁棒性基准，研究结果对可靠部署语言模型并推动可信人工智能系统的发展具有重要意义。

May, 2024

对大规模语言模型的漏洞调查：对抗性攻击的揭示

大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域，本文调查了该领域的相关研究，并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。

Oct, 2023

生成具有有效性和自然性的大型语言模型对抗样本

基于大型语言模型 (LLMs) 的语言理解和生成能力，我们提出了 LLM-Attack，旨在使用 LLMs 生成既有效又自然的对抗性示例。实验结果表明 LLM-Attack 比基线模型在人类和 GPT-4 评估中表现优异，能够生成通常有效、自然，并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。

Nov, 2023

LLM 自卫：通过自我检验，LLM 知道自己被欺骗

通过使用语言模型验证内容，我们提出了一种简单的方法来防御对抗性攻击，从而使大型语言模型过滤其自己的回应，即使模型未经人类价值重新调整，也可以避免为用户呈现有害内容。

Aug, 2023

网络安全中的大型语言模型：最新技术

通过评估对进攻和防御应用的研究，本研究旨在提供对 LLM 驱动的网络安全领域中潜在风险和机遇的整体理解。

Jan, 2024

大型语言模型攻击的比较调查

通过综述各种在大型语言模型上攻击的形式及机制，以及其潜在影响和当前的防御策略，该论文探讨了大型语言模型的安全性和脆弱性方面的问题。研究主题包括旨在操纵模型输出的对抗性攻击、影响模型训练的数据污染，以及与训练数据利用相关的隐私问题。论文还探讨了不同攻击方法的有效性、大型语言模型对这些攻击的弹性以及对模型完整性和用户信任的影响。通过研究最新的研究成果，提供对大型语言模型的脆弱性和防御机制的深入了解，旨在引起人工智能社区的关注，并激发切实解决这些风险的方法。

Mar, 2024

在 LLM 时代的社交工程攻击防御

本研究探讨了大型语言模型（LLMs）作为聊天式社交工程（CSE）攻击的助手和防御者所面临的挑战，开发了一个模拟学术和招聘场景的数据集 SEConvo，揭示了 LLMs 在这些情境中的利用和检测能力，设计了 ConvoSentinel 以提高检测效果，强化 CSE 攻击的辨识能力，凸显了在网络安全领域中利用 LLMs 的需求。

Jun, 2024