从微调和量化中提高 LLM 的脆弱性
利用量化技术减少大型语言模型(LLM)的内存使用,但本文首次从安全角度研究了量化技术的负面影响,揭示了广泛使用的量化方法可能被利用以产生有害的量化 LLM,从而欺骗用户部署恶意量化模型。
May, 2024
探讨大型语言模型在恶意服务 Mallas 的滥用方面的有效性和漏洞,以及针对已识别漏洞生成代码和解释文本的微调方法。研究旨在揭示 Mallas 的操作策略和攻击技术,从而为开发更安全可信赖的人工智能应用程序提供指导。强调进一步研究、增强保护措施和伦理准则以应对大型语言模型恶意应用的风险。
Jun, 2024
通过提出 “免疫条件” 作为对抗有害微调攻击的一种形式框架,并实验性地使用对抗性损失示范对 LLama2-7b-chat 进行免疫,我们综合了不同的研究方向,以预防有害微调攻击。
Feb, 2024
通过修剪大型语言模型(LLM)的参数,可以显著提高其对 Jailbreaking 提示的抵抗力,而且不需要额外的训练,并且在标准基准测试中不会牺牲性能。此外,我们引入了一个由 225 个有害任务组成的精选数据集,并将其插入到 10 个不同的 Jailbreaking 提示中,结果显示修剪有助于 LLM 集中注意力于与提示相关的标记。最后,我们的实验揭示了著名的聊天模型(如 LLaMA-2 Chat,Vicuna 和 Mistral Instruct)对 Jailbreaking 攻击非常容易受到攻击,某些类别的成功率接近 70-100%。这些结果凸显了修剪作为提高 LLM 的安全性、可靠性和其他所期望行为的可推广方法的潜力。
Jan, 2024
广义的对大型语言模型进行的对抗性攻击研究了攻击面和攻击目标,并对具体例子进行了分类和系统化,如误导、模型控制、服务拒绝或数据提取,并分析了这些攻击的实验结果。
Feb, 2024
通过 Layer-specific Editing (LED) 方法,本研究探讨了大型语言模型(LLMs)对有害提示的反应,并显示出早期层中存在几个关键的安全层。通过将这些安全层与来自选择目标层的解码安全响应进行重新对齐,可以显著提高 LLMs 对破解攻击的适应性。
May, 2024
大型语言模型是各种人工智能应用中的关键组件,理解它们的安全漏洞和防御机制的有效性至关重要。本文调查了 LLMs 的安全挑战,重点关注两个主要领域:Prompt Hacking 和 Adversarial Attacks,每个领域都有特定类型的威胁。通过对 Prompt Hacking 和 Adversarial Attacks 的分析,研究了它们的工作原理、潜在影响以及缓解方法。调查强调了这些安全挑战,并讨论了保护 LLMs 免受这些威胁的强大防御框架。通过详细阐述这些安全问题,调查为抵御复杂攻击的坚韧人工智能系统的构建提供了宝贵的讨论。
Jun, 2024
本研究对开源大型语言模型的隐私攻击进行了系统研究,提出了威胁预训练和微调模型的成员推断攻击方法,并展示了近乎完美的攻击效果,强调了在进行高度敏感数据的微调和部署之前应当十分谨慎。
Feb, 2024
大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域,本文调查了该领域的相关研究,并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。
Oct, 2023