传播通用扰动攻击大型语言模型防护栏

Feb, 2024

传播通用扰动攻击大型语言模型防护栏

PRP: Propagating Universal Perturbations to Attack Large Language Model Guard-Rails

Neal Mangaokar, Ashish Hooda, Jihye Choi, Shreyas Chandrashekaran, Kassem Fawaz...

TL;DR大语言模型容易受到自动越狱攻击的威胁，目前的防御措施还不够有效，需要进一步改进。

Abstract

large language models (LLMs) are typically aligned to be harmless to humans. Unfortunately, recent work has shown that such models are susceptible to automated jailbreak attacks that induce them to generate harmf

发现论文，激发创造

LoFT：用于提高对大型语言模型的对抗攻击的可转移性的本地代理微调

本研究提出了局部微调（LoFT）方法，通过在词汇-语义邻近的有害查询中微调代理模型，减小代理模型与目标模型之间的差异，从而提高攻击的成功率。实验证明，局部微调代理模型能够提高攻击的传递性和攻击成功率。

Oct, 2023

对大规模语言模型的漏洞调查：对抗性攻击的揭示

大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域，本文调查了该领域的相关研究，并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。

Oct, 2023

修剪以增加对齐LLMs的防越狱能力，无需微调

通过修剪大型语言模型（LLM）的参数，可以显著提高其对Jailbreaking提示的抵抗力，而且不需要额外的训练，并且在标准基准测试中不会牺牲性能。此外，我们引入了一个由225个有害任务组成的精选数据集，并将其插入到10个不同的Jailbreaking提示中，结果显示修剪有助于LLM集中注意力于与提示相关的标记。最后，我们的实验揭示了著名的聊天模型（如LLaMA-2 Chat，Vicuna和Mistral Instruct）对Jailbreaking攻击非常容易受到攻击，某些类别的成功率接近70-100％。这些结果凸显了修剪作为提高LLM的安全性、可靠性和其他所期望行为的可推广方法的潜力。

Jan, 2024

大型语言模型攻击的比较调查

通过综述各种在大型语言模型上攻击的形式及机制，以及其潜在影响和当前的防御策略，该论文探讨了大型语言模型的安全性和脆弱性方面的问题。研究主题包括旨在操纵模型输出的对抗性攻击、影响模型训练的数据污染，以及与训练数据利用相关的隐私问题。论文还探讨了不同攻击方法的有效性、大型语言模型对这些攻击的弹性以及对模型完整性和用户信任的影响。通过研究最新的研究成果，提供对大型语言模型的脆弱性和防御机制的深入了解，旨在引起人工智能社区的关注，并激发切实解决这些风险的方法。

Mar, 2024

大规模语言模型的自动且通用提示注入攻击

自动梯度方法生成高效、通用的提示注入数据，彰显梯度测试的重要性，尤其是对于防御机制。

Mar, 2024

通过特定层编辑来防御针对大型语言模型的越狱攻击

通过Layer-specific Editing (LED)方法，本研究探讨了大型语言模型（LLMs）对有害提示的反应，并显示出早期层中存在几个关键的安全层。通过将这些安全层与来自选择目标层的解码安全响应进行重新对齐，可以显著提高LLMs对破解攻击的适应性。

May, 2024

大型语言模型的越狱攻击与防御：综述

通过提出全面详细的破防攻击和防御方法分类体系，本研究旨在启发未来的研究和实际应用，增强对大语言模型在对抗性攻击中的安全性保障，为发展更安全的大语言模型奠定基础。

Jul, 2024

前缀引导：大型语言模型抵御越狱攻击的方向盘

本研究针对大型语言模型（LLMs）面临的越狱攻击问题，提出了一种名为前缀引导（PG）的防御框架，该框架易于部署，能够通过设定模型输出的前几个词来指导模型识别有害提示。实验结果显示，PG在不同模型和攻击方法上的效果优于现有基线，且能够有效保持模型的性能。

Aug, 2024

前缀引导：大型语言模型抵御越狱攻击的方向盘

本研究解决了大型语言模型（LLMs）在越狱攻击中存在的安全漏洞。提出了一种名为前缀引导（PG）的防御框架，通过直接设置模型输出的前几个令牌，帮助模型识别有害提示。研究表明，PG在保护模型效能的同时，相比于其他防御方法，展现出更高的有效性和优越性。

Aug, 2024

大型语言模型攻击与防御方法的最新进展

本研究聚焦大型语言模型（LLMs）在安全性和可靠性方面的挑战，分析了现有的脆弱性和威胁模型。通过审查攻击机制和防御策略的现状，本文识别了研究中的空白，并提出了未来的研究方向，以推动LLM安全性的提升。

Sep, 2024