通过自去噪平滑提高大型语言模型的稳健性

ACLApr, 2024

通过自去噪平滑提高大型语言模型的稳健性

Advancing the Robustness of Large Language Models through Self-Denoised Smoothing

Jiabao Ji, Bairu Hou, Zhen Zhang, Guanhua Zhang, Wenqi Fan...

TL;DR大型语言模型 (LLMs) 的漏洞性导致对抗性扰动攻击，而随着模型规模的增加和有限的访问权限，提高模型的鲁棒性变得很困难。我们提出了一种称为自修复平滑的方法，通过利用 LLMs 的多任务性质，首先去噪噪声输入，然后基于这些去噪版本进行预测，以提高模型对噪声数据的鲁棒性。实验结果表明，我们的方法在防御对抗攻击方面超过了现有方法，在下游任务和用户对齐方面都具有较好的鲁棒性。

Abstract

Although large language models (LLMs) have achieved significant success, their vulnerability to adversarial perturbations, including recent jailbreak attacks, has raised considerable concerns. However, the increa

large language models adversarial perturbations randomized smoothing multitasking nature self-denoised smoothing

发现论文，激发创造

使用自降噪技术为大型语言模型提供认证的鲁棒性

本文提出了一种新的针对大型语言模型的认证健壮方法，提高了模型的认证健壮性和预测稳定性，比现有认证方法表现更优秀，实验结果表明该方法在经验证健壮性和实证健壮性方面均优于现有认证方法。

Jul, 2023

SmoothLLM: 对抗越狱攻击的大型语言模型防御

为了解决大型语言模型在破解攻击中的脆弱性，提出了 SmoothLLM 算法，通过对输入的随机扰动和聚合进行检测，降低了攻击成功率，并在攻击缓解上提供了可证明的保证。

Oct, 2023

通过语义平滑对抗越狱攻击的大型语言模型防御

防止大语言模型遭受越狱攻击的 SEMANTICSMOOTH 防御机制，在语义攻击方面取得了最先进的鲁棒性成果，并在指导遵循基准测试中保持强大的名义性能。

Feb, 2024

合并提升自我审查对抗越狱攻击

通过融合批评模型和自我批评能力，将大型语言模型（LLM）微调于经过净化的合成数据之上，以提高其对抗性提示的自我批评能力和鲁棒性，从而显著降低攻击者的攻击成功率，为抵御越狱攻击提供了一种有前景的防御机制。

Jun, 2024

通过特定层编辑来防御针对大型语言模型的越狱攻击

通过 Layer-specific Editing (LED) 方法，本研究探讨了大型语言模型（LLMs）对有害提示的反应，并显示出早期层中存在几个关键的安全层。通过将这些安全层与来自选择目标层的解码安全响应进行重新对齐，可以显著提高 LLMs 对破解攻击的适应性。

May, 2024

评估大型语言模型的对抗性鲁棒性：一项实证研究

对大型语言模型的鲁棒性进行了攻击和评估，并在五项不同的文本分类任务上建立了新的鲁棒性基准，研究结果对可靠部署语言模型并推动可信人工智能系统的发展具有重要意义。

May, 2024

标签平滑化提高领域内外文本对抗鲁棒性

通过研究标签平滑策略在 NLP 领域不同任务中的应用，发现其可以有效地提高预训练模型的对抗鲁棒性，特别是在对抗攻击方面，并降低过度自信错误。

Dec, 2022

通过标签平滑实现对抗鲁棒性

研究了标签平滑作为改善监督深度学习模型对抗鲁棒性的手段，在多个数据集和模型上证明了标签平滑的普遍优越性以及提出了几种变化形式。

Jun, 2019

SpeechGuard: 多模态大型语言模型的对抗鲁棒性探索

通过设计算法进行白盒和黑盒攻击以实现越狱，提出了对抗越狱攻击的对策，并展示了该对策显著降低攻击成功率。

May, 2024

基于机器学习的恶意软件检测器的认证对抗鲁棒性：(去) 随机平滑

本研究提出了一种针对补丁攻击的可验证防御机制，通过将可执行文件划分为非重叠的块，并采用多数投票的方式计算最终预测结果，从而最小化注入内容的影响。此外，引入了预处理步骤，将部分和标头的大小固定为块大小的倍数，从而确保恶意内容仅存在于整数个块中，同时保证对内容插入攻击具有认证的鲁棒性保证。经过广泛的消融研究，结果表明我们的方法在强攻击下展现出无与伦比的鲁棒性，优于文献中基于随机平滑的防御方法。

May, 2024