- 谐波 LLMs 是可靠的
我们提出了一种直观的方法,实时测试任何黑盒 LLM 的鲁棒性(稳定性和可解释性),基于与谐波性的局部偏离,表示为 γ。我们进行人类注释实验,显示 γ 与错误或误导性答案之间的正相关,并证明在随机梯度上升中遵循 γ 的梯度能够高效地暴露敌对提 - 使用信息瓶颈保护您的 LLMs
信息瓶颈保护器 (IBProtector) 是一种立足于信息瓶颈原理的防御机制,通过压缩和扰动提示信息,以保留目标大语言模型回应预期答案所需的关键信息,从而有效防止越狱攻击,而不过度影响响应质量或推理速度。
- JailbreakBench:大型语言模型越狱鲁棒性评估基准
JailbreakBench is an open-sourced benchmark for evaluating jailbreak attacks on large language models, addressing challe - ACLLinkPrompt:基于提示的语言模型的自然且通用的对抗攻击
LinkPrompt 是一种通过基于梯度的波束搜索算法生成的自然的通用对抗触发器(UATs),能够有效地攻击目标预训练语言模型(PLMs)和基于提示的微调模型(PFMs)并保持触发器标记中的自然性。
- 使用扩散模型进行受控训练数据生成
这项研究提出了一种利用反馈机制来控制文本到图像生成模型,以生成对监督学习特别有用的训练数据的方法,并且通过引入指导目标分布的反馈机制,演示了该方法在不同任务、数据集和架构上相对于开环方法的有效性。
- 通过伪装和重构在少量查询中解封大型语言模型的方法
通过识别安全微调中的偏差漏洞并设计一种称为 DRA(伪装和重构攻击)的黑盒越狱方法,我们在 LLMs 安全方面开创了理论基础。我们评估了 DRA 在各种开源和闭源模型上的效果,并展示了最先进的越狱成功率和攻击效率,特别是在 LLM 聊天机器 - 彩虹团队:多样对抗提示的开放生成
使用彩虹团队合作的方法,通过生成多样化的对抗性提示来提高大型语言模型的鲁棒性,涉及领域包括安全性、问答和网络安全。还证明了通过彩虹团队生成的合成数据进行微调可以提高最新大型语言模型的安全性,同时不损害其整体能力和实用性,为开放式的自我提升铺 - Groot:基于树状语义转换的生成式文本转图像模型的对抗性测试
通过引入基于树形语义转换的自动化框架 Groot,以及语义分解和敏感元素淹没策略,Groot 显著提高了文本到图像模型的对抗测试的性能和成功率。
- 使用投影梯度下降攻击大规模语言模型
通过控制连续放松引入的误差,我们改进了投影梯度下降(PGD)对连续放松输入提示的攻击方法,实现了与现有离散优化相同的毁灭性攻击结果,PGD 对 LLMs 的速度比最新的离散优化方法快了一个数量级。
- 大型语言模型上的从弱到强破解
通过实验,研究发现了对齐的大型语言模型存在监狱突破漏洞,提出了一种弱到强的监狱突破攻击方法,并介绍了一种针对该攻击的防御策略。
- ACL基于梯度的语言模型红队测试
基于梯度的红队技术(GBRT)是一种自动生成多样的提示,很可能导致语言模型输出不安全回应的红队技术方法。通过将 LM 回应与安全分类器进行评分并通过冻结的安全分类器和 LM 进行反向传播来更新提示,我们训练了 GBRT。为了提高输入提示的连 - 通过有针对性的攻击揭示稳定扩散中的漏洞
本研究针对 Stable Diffusion 模型的脆弱性,提出一种生成特定图像的对抗性提示框架,并通过揭示导致模型脆弱性的机制来证明方法的有效性。
- 分治攻击:利用 LLM 的威力绕过文本到图像生成模型的审查
通过将 LLMs 生成的对抗性提示用于 GPT-4 辅助 DALLE-3,引入了一种称为分治攻击的方法,绕过了文本到图像模型的安全过滤器,可能对安全性产生更严重的影响。
- 来自感染的人类反馈的通用越狱后门
利用强化学习从人类反馈中对大型语言模型进行调整,以生成有益且无害的回答;然而,此研究发现这些模型可以通过找到对抗性提示来解开监狱束缚,因此本文考虑了新的威胁,即攻击者通过植入 “监狱解锁后门” 来污染强化学习训练数据,并嵌入模型中;这种后门 - 通过全球规模的提示破解竞赛揭示 LLM 系统的系统性漏洞
通过全球 prompt 黑客竞赛,我们描述了当前大规模语言模型可以通过 prompt 黑客而遭受攻击,提供了对三种最先进的大规模语言模型进行的 600K+ 对抗性 prompt 的数据集,并提出了对敌对 prompt 类型的综合分类本体论。
- 通过强鲁棒对齐的 LLM 防御对齐破坏攻击
最近,大型语言模型(LLMs)取得了明显的进展,并在各个领域得到广泛应用。然而,人们越来越担心 LLMs 可能被滥用以生成有害或恶意内容。本研究介绍了一种抵御潜在破坏对齐的攻击的强韧对齐语言模型(RA-LLM),它可以直接在现有的对齐语言模 - 针对对抗引导的 LLM 安全性认证
我们提出了第一个具有可验证安全保证的消除 - 检查(erase-and-check)框架,以抵御恶意提示。我们通过逐个擦除 token 并使用安全过滤器检查得到的子序列,将输入提示标记为有害,如果安全过滤器检测到任何子序列或者输入提示本身存 - FLIRT: 反馈回路内上下文的红队作战
通过提出一种自动红队框架,我们展示了如何评估给定模型并暴露其对不安全和不适当内容生成的漏洞,并通过上下文学习和不同攻击策略来自动学习对图像生成模型有效多样的对抗提示。我们的实验证明,与基线方法相比,我们提出的策略在暴露 Stable Dif - 现在做任何事情”:对大型语言模型中的自由研究提示进行特征化和评估
通过对 wild 中的 jailbreak prompts 进行第一次测量研究,我们发现了 jailbreak prompts 的独特特征以及其攻击策略,并评估了当前 LLMs 和保护措施在各种情况下不能充分防御 jailbreak pro - PromptBench:评估大型语言模型对对抗性提示的鲁棒性
本研究使用 adversarial prompts 对 Large Language Models 进行度量,并分析了 prompt 鲁棒性及其传递性,为 prompt 组合提供了实用性建议。