从微调和量化中提高 LLM 的脆弱性

Apr, 2024

从微调和量化中提高 LLM 的脆弱性

Increased LLM Vulnerabilities from Fine-tuning and Quantization

Divyanshu Kumar, Anurakt Kumar, Sahil Agarwal, Prashanth Harshangi

TL;DR大型语言模型在各个领域中得到了广泛应用，但是它们也面临不同类型的攻击，如越狱、提示注入和隐私泄露攻击。本研究探讨了下游任务（如改进性调整和量化）对大型语言模型的脆弱性的影响，并展示了使用外部防护措施以减少脆弱性的实用性。

Abstract

large language models (LLMs) have become very popular and have found use cases in many domains, such as chatbots, auto-task completion agents, and much more. However, LLMs are vulnerable to different types of attacks

large language models attacks adversarial and alignment training fine-tuning quantization

发现论文，激发创造

利用 LLM 量化

利用量化技术减少大型语言模型（LLM）的内存使用，但本文首次从安全角度研究了量化技术的负面影响，揭示了广泛使用的量化方法可能被利用以产生有害的量化 LLM，从而欺骗用户部署恶意量化模型。

May, 2024

通过探索进行 Fine-Tuning 的大型语言模型，转变计算机安全与公众信任

探讨大型语言模型在恶意服务 Mallas 的滥用方面的有效性和漏洞，以及针对已识别漏洞生成代码和解释文本的微调方法。研究旨在揭示 Mallas 的操作策略和攻击技术，从而为开发更安全可信赖的人工智能应用程序提供指导。强调进一步研究、增强保护措施和伦理准则以应对大型语言模型恶意应用的风险。

Jun, 2024

免疫有害微调攻击

通过提出 “免疫条件” 作为对抗有害微调攻击的一种形式框架，并实验性地使用对抗性损失示范对 LLama2-7b-chat 进行免疫，我们综合了不同的研究方向，以预防有害微调攻击。

Feb, 2024

修剪以增加对齐 LLMs 的防越狱能力，无需微调

通过修剪大型语言模型（LLM）的参数，可以显著提高其对 Jailbreaking 提示的抵抗力，而且不需要额外的训练，并且在标准基准测试中不会牺牲性能。此外，我们引入了一个由 225 个有害任务组成的精选数据集，并将其插入到 10 个不同的 Jailbreaking 提示中，结果显示修剪有助于 LLM 集中注意力于与提示相关的标记。最后，我们的实验揭示了著名的聊天模型（如 LLaMA-2 Chat，Vicuna 和 Mistral Instruct）对 Jailbreaking 攻击非常容易受到攻击，某些类别的成功率接近 70-100％。这些结果凸显了修剪作为提高 LLM 的安全性、可靠性和其他所期望行为的可推广方法的潜力。

Jan, 2024

迫使语言模型（LLMs）做和透露（几乎）任何事情

广义的对大型语言模型进行的对抗性攻击研究了攻击面和攻击目标，并对具体例子进行了分类和系统化，如误导、模型控制、服务拒绝或数据提取，并分析了这些攻击的实验结果。

Feb, 2024

大型语言模型的安全与隐私挑战概述

该文综述了大型语言模型在安全与隐私方面面临的挑战，分析了其脆弱性，并审查了潜在的攻击方式与防御机制，还指出了该领域中的研究空白与未来发展方向。

Jan, 2024

通过特定层编辑来防御针对大型语言模型的越狱攻击

通过 Layer-specific Editing (LED) 方法，本研究探讨了大型语言模型（LLMs）对有害提示的反应，并显示出早期层中存在几个关键的安全层。通过将这些安全层与来自选择目标层的解码安全响应进行重新对齐，可以显著提高 LLMs 对破解攻击的适应性。

May, 2024

大型语言模型中的漏洞和保护探索：调查

大型语言模型是各种人工智能应用中的关键组件，理解它们的安全漏洞和防御机制的有效性至关重要。本文调查了 LLMs 的安全挑战，重点关注两个主要领域：Prompt Hacking 和 Adversarial Attacks，每个领域都有特定类型的威胁。通过对 Prompt Hacking 和 Adversarial Attacks 的分析，研究了它们的工作原理、潜在影响以及缓解方法。调查强调了这些安全挑战，并讨论了保护 LLMs 免受这些威胁的强大防御框架。通过详细阐述这些安全问题，调查为抵御复杂攻击的坚韧人工智能系统的构建提供了宝贵的讨论。

Jun, 2024

潘多拉的白箱：开放式 LLM 中训练数据泄露的增加

本研究对开源大型语言模型的隐私攻击进行了系统研究，提出了威胁预训练和微调模型的成员推断攻击方法，并展示了近乎完美的攻击效果，强调了在进行高度敏感数据的微调和部署之前应当十分谨慎。

Feb, 2024

对大规模语言模型的漏洞调查：对抗性攻击的揭示

大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域，本文调查了该领域的相关研究，并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。

Oct, 2023