大型语言模型攻击的比较调查

Mar, 2024

Breaking Down the Defenses: A Comparative Survey of Attacks on Large Language Models

Arijit Ghosh Chowdhury, Md Mofijul Islam, Vaibhav Kumar, Faysal Hossain Shezan, Vaibhav Kumar...

TL;DR通过综述各种在大型语言模型上攻击的形式及机制，以及其潜在影响和当前的防御策略，该论文探讨了大型语言模型的安全性和脆弱性方面的问题。研究主题包括旨在操纵模型输出的对抗性攻击、影响模型训练的数据污染，以及与训练数据利用相关的隐私问题。论文还探讨了不同攻击方法的有效性、大型语言模型对这些攻击的弹性以及对模型完整性和用户信任的影响。通过研究最新的研究成果，提供对大型语言模型的脆弱性和防御机制的深入了解，旨在引起人工智能社区的关注，并激发切实解决这些风险的方法。

Abstract

large language models (LLMs) have become a cornerstone in the field of Natural Language Processing (NLP), offering transformative capabilities in understanding and generating human-like text. However, with their rising prominence, the security and vulnerability aspects of these models

发现论文，激发创造

大型语言模型中的隐私：攻击、防御与未来方向

给出了当前针对大型语言模型（LLMs）的隐私攻击的全面分析，并对其进行了分类，同时提供了用于对抗这些隐私攻击的重要防御策略，并指出了LLMs发展中可能出现的新的隐私问题和未来的研究方向。

Oct, 2023

对大规模语言模型的漏洞调查：对抗性攻击的揭示

大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域，本文调查了该领域的相关研究，并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。

Oct, 2023

保护大型语言模型：威胁、漏洞和负责任的做法

对大型语言模型（LLMs）的安全与隐私问题进行了全面的研究，从安全与隐私问题、对抗性攻击的脆弱性、滥用影响、缓解策略以及当前策略的局限性等五个主题角度进行深入探讨，并提出了未来研究的有前景的方向，以增强LLMs的安全和风险管理。

Mar, 2024

评估大型语言模型的对抗性鲁棒性：一项实证研究

对大型语言模型的鲁棒性进行了攻击和评估，并在五项不同的文本分类任务上建立了新的鲁棒性基准，研究结果对可靠部署语言模型并推动可信人工智能系统的发展具有重要意义。

May, 2024

大型语言模型中的漏洞和保护探索: 调查

大型语言模型是各种人工智能应用中的关键组件，理解它们的安全漏洞和防御机制的有效性至关重要。本文调查了LLMs的安全挑战，重点关注两个主要领域：Prompt Hacking和Adversarial Attacks，每个领域都有特定类型的威胁。通过对Prompt Hacking和Adversarial Attacks的分析，研究了它们的工作原理、潜在影响以及缓解方法。调查强调了这些安全挑战，并讨论了保护LLMs免受这些威胁的强大防御框架。通过详细阐述这些安全问题，调查为抵御复杂攻击的坚韧人工智能系统的构建提供了宝贵的讨论。

Jun, 2024

对大型语言模型的后门攻击和防御调研：对安全措施的影响

该研究论文侧重于细调方法，系统地将后门攻击分类为全参数细调、参数高效细调和无细调攻击，并讨论了未来研究中关键问题，例如无需细调的攻击算法和更隐蔽的攻击算法，以填补现有后门攻击调查的知识空白。

Jun, 2024

大型语言模型的越狱攻击与防御：综述

通过提出全面详细的破防攻击和防御方法分类体系，本研究旨在启发未来的研究和实际应用，增强对大语言模型在对抗性攻击中的安全性保障，为发展更安全的大语言模型奠定基础。

Jul, 2024

大型语言模型攻击与防御方法的最新进展

本研究聚焦大型语言模型（LLMs）在安全性和可靠性方面的挑战，分析了现有的脆弱性和威胁模型。通过审查攻击机制和防御策略的现状，本文识别了研究中的空白，并提出了未来的研究方向，以推动LLM安全性的提升。

Sep, 2024

大型语言模型的攻击与防御方法的最新进展

本研究针对大型语言模型（LLMs）所面临的安全性和可靠性问题进行了综述，特别是现有脆弱性和新兴威胁模型。通过分析攻击机制和当前防御策略的优缺点，识别研究空白，并提出未来加强LLM安全性的方向，旨在提升对其安全挑战的理解，促进更稳健的安全措施的发展。

Sep, 2024

利用大语言模型作为对抗引擎推进自然语言处理安全

本论文旨在通过利用大语言模型（LLMs）生成多样化的对抗攻击，来解决自然语言处理(NLP)安全领域的不足。我们提出了一个新颖的方法，扩展了LLMs在生成词级对抗示例中的应用，涵盖了对抗补丁、通用扰动和目标攻击等多种攻击类型。研究发现，LLMs的语言理解与生成能力可以生成更有效的、语义连贯的人类样式的对抗示例，从而提升模型的鲁棒性，揭示新漏洞，并推动防御机制的创新。

Oct, 2024