一份包含恶意内容的用于LLMs的中文Prompt攻击数据集
本研究讨论了如何通过注入恶意提示,以及从Web中检索出的包含有害预置提示的内容来对集成应用程序的大型语言模型(LLMs)进行Prompt Injection攻击。研究表明,这种攻击是实际可行的,需要加强技术进行缓解。
Feb, 2023
本研究检验了大型语言模型中已存在的Prompt Injection攻击,设计了一种名为HouYi的黑盒Prompt Injection攻击技术,并发现其可造成诸如不受限制的任意LLM使用和简单的应用程序prompt窃取等严重影响。
Jun, 2023
最近,大型语言模型(LLMs)已越来越多地集成到各种Web应用程序中,并进行对齐训练,以确保生成的内容与用户意图和伦理相一致。然而,它们仍存在在实际应用中生成恶意内容(如仇恨言论和犯罪活动)的风险。本文引入了一种创新的技术来混淆恶意指令:组合指令攻击(CIA),它通过组合和封装多个指令进行攻击。CIA将恶意提示隐藏在无害意图的指令中,使模型无法识别潜在的恶意意图。此外,我们实现了两种变换方法,即T-CIA和W-CIA,以将恶意指令自动伪装成对话或写作任务,使其对LLMs看起来无害。我们对GPT-4、ChatGPT和ChatGLM2进行了CIA评估,使用了两个安全评估数据集和两个恶意提示数据集。在安全评估数据集上,攻击成功率达到95%+,在GPT-4、ChatGPT(gpt-3.5-turbo支持)和ChatGLM2-6B上的恶意提示数据集上分别为83%+和91%+。我们的方法揭示了LLMs对这种潜藏的恶意意图进行组合指令攻击的脆弱性,为LLM安全性的发展做出了重要贡献。警告:本文可能包含冒犯或煽动性内容!
Oct, 2023
通过综合手动和自动方法生成攻击提示的综合方法,提出了一种攻击框架来训练大型语言模型并模仿人类生成的提示,并通过与攻击框架的迭代交互来增强受攻击模型对红队攻击的安全性;在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性,并发布了一系列攻击提示数据集(SAP)以便更多大型语言模型的安全评估和增强。
Oct, 2023
通过使用第一个基准BIPIA来评估不同大型语言模型的鲁棒性和对间接提示注入攻击的防御方法,我们发现具有更高能力的大型语言模型在文本任务中更容易受到间接提示注入攻击,导致ASR更高。在此基础上,我们提出了基于提示学习的四种黑盒方法和基于对抗训练的白盒防御方法,使大型语言模型能够区分指令和外部内容,并忽略外部内容中的指令。实验结果表明,我们的黑盒防御方法可以有效降低ASR,但无法完全阻止间接提示注入攻击,而我们的白盒防御方法可以将ASR几乎降低到零,对大型语言模型在一般任务上的性能影响较小。我们希望我们的基准和防御方法能够激发未来在这一重要领域的研究工作。
Dec, 2023
通过引入一个用于评估中文LLM安全性的数据集,我们扩展到其他两个场景,用于更好地识别有风险的提示拒绝的假阴性和假阳性示例,并提出了细化的每种风险类型的安全评估标准,为LLM响应的有害性进行手动注释和自动评估。我们在五个LLM上的实验表明,区域特定风险是最普遍的风险类型,是我们所研究的所有中文LLM的主要问题。
Feb, 2024
通过综述各种在大型语言模型上攻击的形式及机制,以及其潜在影响和当前的防御策略,该论文探讨了大型语言模型的安全性和脆弱性方面的问题。研究主题包括旨在操纵模型输出的对抗性攻击、影响模型训练的数据污染,以及与训练数据利用相关的隐私问题。论文还探讨了不同攻击方法的有效性、大型语言模型对这些攻击的弹性以及对模型完整性和用户信任的影响。通过研究最新的研究成果,提供对大型语言模型的脆弱性和防御机制的深入了解,旨在引起人工智能社区的关注,并激发切实解决这些风险的方法。
Mar, 2024
本研究针对大型语言模型(LLMs)在提示注入攻击下的安全性和可靠性问题,提出了一种名为PROMPTFUZZ的新型测试框架。通过模糊测试技术,PROMPTFUZZ能够系统性地评估LLMs的稳健性,并有效发现模型中的漏洞,从而为这些模型的实际应用提供了有效的安全保障。
Sep, 2024
本文研究了提示注入攻击(PIAs)对基于大语言模型的机器翻译的影响,通过构建一套测试套件,填补了系统对这种攻击的防御空白。研究扩展了现有的攻击方法,涵盖WMT 2024通用机器翻译任务中的所有语言对,并引入了额外的攻击格式,显示出提示注入攻击的多样性和潜在威胁。
Oct, 2024