对大规模语言模型的漏洞调查：对抗性攻击的揭示

Oct, 2023

对大规模语言模型的漏洞调查：对抗性攻击的揭示

Survey of Vulnerabilities in Large Language Models Revealed by Adversarial Attacks

Erfan Shayegani, Md Abdullah Al Mamun, Yu Fu, Pedram Zaree, Yue Dong...

TL;DR大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域，本文调查了该领域的相关研究，并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。

Abstract

large language models (LLMs) are swiftly advancing in architecture and capability, and as they integrate more deeply into complex systems, the urgency to scrutinize their security properties grows. This paper surveys research in the emerging interdisciplinary field of →

large language models adversarial attacks trustworthy ml safety alignment vulnerabilities

发现论文，激发创造

大型语言模型中的漏洞和保护探索：调查

大型语言模型是各种人工智能应用中的关键组件，理解它们的安全漏洞和防御机制的有效性至关重要。本文调查了 LLMs 的安全挑战，重点关注两个主要领域：Prompt Hacking 和 Adversarial Attacks，每个领域都有特定类型的威胁。通过对 Prompt Hacking 和 Adversarial Attacks 的分析，研究了它们的工作原理、潜在影响以及缓解方法。调查强调了这些安全挑战，并讨论了保护 LLMs 免受这些威胁的强大防御框架。通过详细阐述这些安全问题，调查为抵御复杂攻击的坚韧人工智能系统的构建提供了宝贵的讨论。

Jun, 2024

大型语言模型攻击的比较调查

通过综述各种在大型语言模型上攻击的形式及机制，以及其潜在影响和当前的防御策略，该论文探讨了大型语言模型的安全性和脆弱性方面的问题。研究主题包括旨在操纵模型输出的对抗性攻击、影响模型训练的数据污染，以及与训练数据利用相关的隐私问题。论文还探讨了不同攻击方法的有效性、大型语言模型对这些攻击的弹性以及对模型完整性和用户信任的影响。通过研究最新的研究成果，提供对大型语言模型的脆弱性和防御机制的深入了解，旨在引起人工智能社区的关注，并激发切实解决这些风险的方法。

Mar, 2024

探索大型语言模型的对抗能力

调查了大型语言模型（LLMs）是否有内在能力从良性样本中制造对抗性样本来欺骗现有的安全措施，实验结果表明，LLMs 成功地找到了对抗性扰动，有效地破坏了仇恨言论检测系统，这对依赖 LLMs 的（半）自主系统与现有系统和安全措施的交互带来了重要挑战。

Feb, 2024

大型语言模型中的对抗攻击与防御：旧与新的威胁

过去十年来，人们对神经网络的鲁棒性进行了广泛的研究，但这个问题依然没有得到很好的解决。在这篇论文中，我们提出了改进新方法的鲁棒性评估和减少错误评估的第一组先决条件，同时指出了面向开源模型中恶意内容生成的嵌入空间攻击作为另一个可行的威胁模型。最后，我们通过一个最近提出的防御方法进行演示，展示了在没有针对大型语言模型的最佳实践的情况下，过高估计新方法的鲁棒性的容易性。

Oct, 2023

评估大型语言模型的对抗性鲁棒性：一项实证研究

对大型语言模型的鲁棒性进行了攻击和评估，并在五项不同的文本分类任务上建立了新的鲁棒性基准，研究结果对可靠部署语言模型并推动可信人工智能系统的发展具有重要意义。

May, 2024

医学中大型语言模型的对抗攻击

大型语言模型（LLMs）在医疗应用中的整合为医学诊断、治疗建议和患者护理方面的进步提供了有希望的前景，然而，LLMs 对敌对攻击的易受攻击性构成了重大威胁，可能导致敏感医疗环境中的不良结果。本研究调查了 LLMs 在三个医学任务中面临的两种类型的敌对攻击的易受攻击性。利用真实的患者数据，我们证明了开源和专有的 LLMs 在多个任务中容易受到操纵。这项研究进一步揭示了针对特定领域任务的模型微调需要更多的敌对数据以实施有效的攻击，特别是对于更强大的模型而言。我们发现，虽然整合了敌对数据不会明显降低医学基准测试中的整体模型性能，但它确实会导致微调模型权重的明显变化，这表明检测和对抗模型攻击的潜在途径。这项研究强调了在医疗应用中确保 LLMs 安全有效部署的迫切需求，需要健全的安全措施和防御机制来保护 LLMs。

Jun, 2024

保护大型语言模型：威胁、漏洞和负责任的做法

对大型语言模型（LLMs）的安全与隐私问题进行了全面的研究，从安全与隐私问题、对抗性攻击的脆弱性、滥用影响、缓解策略以及当前策略的局限性等五个主题角度进行深入探讨，并提出了未来研究的有前景的方向，以增强 LLMs 的安全和风险管理。

Mar, 2024

大型语言模型的安全与隐私挑战概述

该文综述了大型语言模型在安全与隐私方面面临的挑战，分析了其脆弱性，并审查了潜在的攻击方式与防御机制，还指出了该领域中的研究空白与未来发展方向。

Jan, 2024

大型语言模型中的隐私：攻击、防御与未来方向

给出了当前针对大型语言模型（LLMs）的隐私攻击的全面分析，并对其进行了分类，同时提供了用于对抗这些隐私攻击的重要防御策略，并指出了 LLMs 发展中可能出现的新的隐私问题和未来的研究方向。

Oct, 2023

对大规模语言模型的对抗欺骗攻击效率

使用五种不同的大型语言模型（LLMs）进行情感分类任务时，针对三种不同类型的对抗攻击，该研究分析了攻击的有效性、效率和实用性，发现词级攻击更有效，而字符级攻击则更实用且所需的改动和查询数量较少，因此在开发对抗性防御策略以训练更具鲁棒性的 LLMs 用于智能文本分类应用时需考虑这些差异。

Jun, 2024