LLM审查：机器学习挑战还是计算机安全问题？

Jul, 2023

LLM审查：机器学习挑战还是计算机安全问题？

LLM Censorship: A Machine Learning Challenge or a Computer Security Problem?

David Glukhov, Ilia Shumailov, Yarin Gal, Nicolas Papernot, Vardan Papyan

TL;DR大型语言模型在理解复杂指令方面显示出令人印象深刻的能力，但是它们对提供的指令的盲目奉承引发了对恶意使用风险的担忧。本文介绍了这种语义审查方法的理论局限性，并指出由于大型语言模型的编程和按指令行事的能力而产生的审查所带来的困难。此外，我们认为这些挑战不仅仅局限于语义审查，有了足够的背景知识，攻击者可以从一组允许的输出中重构出不可接受的内容。因此，我们建议重新评估审查问题，并将其视为一个安全问题，采用基于安全的方法来减轻潜在的风险。

Abstract

large language models (LLMs) have exhibited impressive capabilities in comprehending complex instructions. However, their blind adherence to provided instructions has led to concerns regarding risks of malicious use

发现论文，激发创造

Prompt Packer：通过隐藏攻击的组合指令欺骗LLMs

最近，大型语言模型（LLMs）已越来越多地集成到各种Web应用程序中，并进行对齐训练，以确保生成的内容与用户意图和伦理相一致。然而，它们仍存在在实际应用中生成恶意内容（如仇恨言论和犯罪活动）的风险。本文引入了一种创新的技术来混淆恶意指令：组合指令攻击（CIA），它通过组合和封装多个指令进行攻击。CIA将恶意提示隐藏在无害意图的指令中，使模型无法识别潜在的恶意意图。此外，我们实现了两种变换方法，即T-CIA和W-CIA，以将恶意指令自动伪装成对话或写作任务，使其对LLMs看起来无害。我们对GPT-4、ChatGPT和ChatGLM2进行了CIA评估，使用了两个安全评估数据集和两个恶意提示数据集。在安全评估数据集上，攻击成功率达到95%+，在GPT-4、ChatGPT（gpt-3.5-turbo支持）和ChatGLM2-6B上的恶意提示数据集上分别为83%+和91%+。我们的方法揭示了LLMs对这种潜藏的恶意意图进行组合指令攻击的脆弱性，为LLM安全性的发展做出了重要贡献。警告：本文可能包含冒犯或煽动性内容！

Oct, 2023

大型语言模型中的隐私：攻击、防御与未来方向

给出了当前针对大型语言模型（LLMs）的隐私攻击的全面分析，并对其进行了分类，同时提供了用于对抗这些隐私攻击的重要防御策略，并指出了LLMs发展中可能出现的新的隐私问题和未来的研究方向。

Oct, 2023

大型语言模型（LLM）安全与隐私调查：优点、缺点和不好的一面

这篇论文探讨了大型语言模型与安全和隐私的交叉领域，研究了它们对安全和隐私的积极影响、潜在的风险和威胁，以及模型本身的固有漏洞。通过全面的文献综述，将研究结果分为“有益”的应用、恶意应用和漏洞及其防御措施。论文还指出了需要进一步研究的领域，并希望通过该研究揭示大型语言模型在加强和危及网络安全方面的潜力。

Dec, 2023

迫使他们坦白！从（生产）LLM中进行强制知识提取

大型语言模型的伦理标准与人类价值的对齐可以通过模型输出日志的滥用来被破坏，我们提出的模型审问方法能够揭示隐藏在输出日志中的有害回复，有效性达到92％，速度快10到20倍，对编码任务也适用。

Dec, 2023

大型语言模型的安全与隐私挑战概述

该文综述了大型语言模型在安全与隐私方面面临的挑战，分析了其脆弱性，并审查了潜在的攻击方式与防御机制，还指出了该领域中的研究空白与未来发展方向。

Jan, 2024

大型语言模型攻击的比较调查

通过综述各种在大型语言模型上攻击的形式及机制，以及其潜在影响和当前的防御策略，该论文探讨了大型语言模型的安全性和脆弱性方面的问题。研究主题包括旨在操纵模型输出的对抗性攻击、影响模型训练的数据污染，以及与训练数据利用相关的隐私问题。论文还探讨了不同攻击方法的有效性、大型语言模型对这些攻击的弹性以及对模型完整性和用户信任的影响。通过研究最新的研究成果，提供对大型语言模型的脆弱性和防御机制的深入了解，旨在引起人工智能社区的关注，并激发切实解决这些风险的方法。

Mar, 2024

保护大型语言模型：威胁、漏洞和负责任的做法

对大型语言模型（LLMs）的安全与隐私问题进行了全面的研究，从安全与隐私问题、对抗性攻击的脆弱性、滥用影响、缓解策略以及当前策略的局限性等五个主题角度进行深入探讨，并提出了未来研究的有前景的方向，以增强LLMs的安全和风险管理。

Mar, 2024

跨任务防御：面向内容安全的指令调优语言模型

我们的研究旨在针对恶意文件开发强大的大型语言模型（LLMs）防御机制，并通过指导调整来提高它们处理危险内容的能力，同时维持其效用和安全之间的平衡。在我们的实证结果中，LLMs可以通过适当的指导调整显著增强它们处理危险内容的能力。此外，加强易受滥用任务的防御策略对于保护LLMs免受处理有害信息的影响是有效的。我们还观察到防御策略中存在效用与安全之间的权衡，其中采用我们提出的方法的Llama2相比Llama1具有更好的平衡。

May, 2024

大型语言模型攻击与防御方法的最新进展

本研究聚焦大型语言模型（LLMs）在安全性和可靠性方面的挑战，分析了现有的脆弱性和威胁模型。通过审查攻击机制和防御策略的现状，本文识别了研究中的空白，并提出了未来的研究方向，以推动LLM安全性的提升。

Sep, 2024

大型语言模型的攻击与防御方法的最新进展

本研究针对大型语言模型（LLMs）所面临的安全性和可靠性问题进行了综述，特别是现有脆弱性和新兴威胁模型。通过分析攻击机制和当前防御策略的优缺点，识别研究空白，并提出未来加强LLM安全性的方向，旨在提升对其安全挑战的理解，促进更稳健的安全措施的发展。

Sep, 2024