鲁棒性大语言模型保护的拒绝特征对抗训练
大型语言模型的安全漏洞对其进行了深入理解。最近的研究表明,文本优化器可以产生绕过审核和对齐的越狱提示。我们从对抗机器学习的丰富研究基础中提出三个问题:在这个领域中,哪些威胁模型实际上是有用的?基线防御技术在这个新领域中的表现如何?LLM安全性与计算机视觉有何不同?我们对LLM上的领先对抗性攻击评估了几种基线防御策略,讨论了每种策略在各种可行和有效的设置中的情况。特别地,我们研究了三种防御类型:检测(基于困惑度),输入预处理(改写和重标记)和对抗训练。我们讨论了白盒和灰盒设置,并讨论了每种考虑的防御的鲁棒性和性能权衡。令人惊讶的是,我们在过滤和预处理方面获得了比其他领域(如视觉)预期的更多成功,这首次表明在这些领域中可能对这些防御的相对优势进行了不同的权衡。
Sep, 2023
我们提出了第一个具有可验证安全保证的消除-检查(erase-and-check)框架,以抵御恶意提示。我们通过逐个擦除token并使用安全过滤器检查得到的子序列,将输入提示标记为有害,如果安全过滤器检测到任何子序列或者输入提示本身存在有害的部分。我们的技术能够针对三种攻击模式进行防御,并且在保证处理安全提示的性能的同时,显著提高了在有害提示上的安全保证指标。
Sep, 2023
大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域,本文调查了该领域的相关研究,并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。
Oct, 2023
通过在LLM的连续嵌入空间中计算对抗攻击来提高对离散攻击的鲁棒性,我们提出了一种快速的对抗训练算法(C-AdvUL),通过对对抗行为数据集上计算的连续嵌入攻击使模型变得鲁棒;我们还引入了C-AdvIPO,这是一种对抗的IPO变体,不需要效用数据进行对抗性鲁棒对齐。我们的实证评估表明,这两个算法显著提高了LLM对离散攻击的鲁棒性,并保持了效用。这些结果表明,对连续扰动的鲁棒性可以外推到离散的威胁模型,为大规模对抗训练算法的鲁棒对齐LLM提供了一条路径。
May, 2024
通过Layer-specific Editing (LED)方法,本研究探讨了大型语言模型(LLMs)对有害提示的反应,并显示出早期层中存在几个关键的安全层。通过将这些安全层与来自选择目标层的解码安全响应进行重新对齐,可以显著提高LLMs对破解攻击的适应性。
May, 2024
我们引入了一种名为LLAMOS的新型防御技术,通过净化输入到目标大型语言模型之前的对抗文本示例,以增强大型语言模型的对抗鲁棒性。我们的方法包括两个主要组成部分:a) 代理指示,可以模拟新的代理进行对抗防御,通过最小限度地更改字符来保持句子的原始含义,并防御攻击;b) 防御指导,提供修改干净或对抗性示例以确保有效防御和目标大型语言模型准确输出的策略。通过在开源和闭源大型语言模型上进行广泛实验,我们的方法可以有效抵御对抗性攻击,从而提高对抗鲁棒性。
May, 2024
通过优化包含对抗性提示及其安全响应的数据集,我们提出了一个两阶段的对抗调整框架,用于增强大型语言模型在防御能力方面的广义性,实验证明了我们方法的优越性,并展示了它作为可传输防御机制的潜力。
Jun, 2024
利用Decoupled Refusal Training (DeRTa)方法,通过识别并解决安全调优数据中的拒绝位置偏见,增强大型语言模型的拒绝生成不安全内容的能力。实证评估结果表明,DeRTa方法不仅在提高模型安全性的同时不会影响性能,而且在防御攻击方面超过了GPT-4等知名模型,成功抵御最新的高级攻击方法(如CodeAttack)。
Jul, 2024
本研究针对大语言模型面临的对抗性攻击和合规性问题,提出了一种开发保障案例的新方法。通过建立多层次框架并动态管理风险,研究展示了如何有效应对模型脆弱性,确保其符合欧洲人工智能法案的要求。该方法的显著发现是,不同的应用场景需要量身定制的策略以保障AI系统的稳健性和合规性。
Oct, 2024