三明治攻击:针对 LLMs 的多语言混合自适应攻击
通过贪婪和基于梯度的搜索技术,自动产生敌对性后缀,实现对齐语言模型的攻击;我们发现这种攻击是可转移的,可以应用于各种公开发布的对齐语言模型,从而引发对如何防止生成不良信息的重要问题。
Jul, 2023
大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域,本文调查了该领域的相关研究,并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。
Oct, 2023
我们的研究揭示了大型语言模型在面临对抗性攻击时的脆弱性的根源,质疑仅仅依赖复杂的对齐方法的有效性,并进一步主张将模态概念与传统的非模态概念相结合,为大型语言模型赋予对现实世界环境以及伦理考虑更细致的理解。
Nov, 2023
调查了大型语言模型(LLMs)是否有内在能力从良性样本中制造对抗性样本来欺骗现有的安全措施,实验结果表明,LLMs 成功地找到了对抗性扰动,有效地破坏了仇恨言论检测系统,这对依赖 LLMs 的(半)自主系统与现有系统和安全措施的交互带来了重要挑战。
Feb, 2024
使用来自攻击模型的嵌入和优化过程插入模型词汇,我们证明了我们的方法可以成功劫持两个流行的开源大语言模型 Llama2 和 Flan-T5,并显示了我们的方法具有不易被察觉的特点,且仅需插入单个词汇即可进行攻击,我们还证明可以使用不同于目标模型的模型进行攻击。
Apr, 2024
通过使用多种语言进行训练,大型语言模型(LLMs)通常具有多语言支持,并展示出在不同语言描述的任务中解决问题的显著能力。然而,由于在不同语言之间训练数据的不均衡分布,LLMs 可能表现出语言歧视,即面对相同任务但在不同语言中描述时,难以保持一致的响应。在本研究中,我们首先从安全性和质量两个方面探讨 LLMs 在对各种语言的查询产生的输出的一致性。我们使用两个数据集(AdvBench 和 NQ)对四个 LLMs(Llama2-13b、Gemma-7b、GPT-3.5-turbo 和 Gemini-pro)进行分析。结果显示,与孟加拉语、格鲁吉亚语、尼泊尔语和迈蒂利语的查询相比,LLMs 对英语、法语、俄语和西班牙语的查询表现出更强的人类对齐能力(平均有 1.04%的有害查询成功越狱)。此外,对于英语、丹麦语、捷克语和斯洛文尼亚语的查询,LLMs 倾向于产生具有更高质量的响应(平均 F1 得分为 0.1494),与其他语言相比。基于这些发现,我们提出了一种基于相似度的投票机制 LDFighter 来减轻 LLMs 中的语言歧视。LDFighter 确保为不同语言使用者提供一致的服务。我们使用良性查询和有害查询来评估 LDFighter。结果显示,LDFighter 不仅显著降低了成功越狱的概率,还平均改善了响应质量,证明了其有效性。
Apr, 2024
通过广泛的实证研究,我们对多语言越狱攻击进行了深入探究,提出了一种新的语义保持算法来创建多语言越狱数据集,并对包括 GPT-4 和 LLaMa 在内的开源和商业语言模型进行了详尽评估,并实施了微调缓解方法。我们的发现显示出,我们的缓解策略显著增强了模型的防御能力,将攻击成功率降低了 96.2%。这项研究为理解和缓解多语言越狱攻击提供了宝贵的见解。
Jan, 2024
基于大型语言模型 (LLMs) 的语言理解和生成能力,我们提出了 LLM-Attack,旨在使用 LLMs 生成既有效又自然的对抗性示例。实验结果表明 LLM-Attack 比基线模型在人类和 GPT-4 评估中表现优异,能够生成通常有效、自然,并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。
Nov, 2023
大语言模型(LLM)被越来越多地应用于模型在选择竞争的第三方内容方面,比如 LLM 驱动的搜索引擎或聊天机器人插件。本文介绍了一种新的攻击类型 —— 偏好操纵攻击,可以通过精心编写的网站内容或插件文档来误导 LLM 以提升攻击者产品的地位并贬低竞争对手,从而增加用户流量和变现。我们展示了这种攻击导致囚徒困境,其中所有各方都有动机发动攻击,但是整体效果会降低 LLM 的输出质量。我们在生产环境的 LLM 搜索引擎(Bing 和 Perplexity)以及插件 API(用于 GPT-4 和 Claude)上演示了我们的攻击。随着 LLM 被越来越多地用于排列第三方内容,我们预计偏好操纵攻击将成为一个重大威胁。
Jun, 2024