使用信息瓶颈保护您的 LLMs

Apr, 2024

Protecting Your LLMs with Information Bottleneck

Zichuan Liu, Zefan Wang, Linjie Xu, Jinyu Wang, Lei Song...

TL;DR信息瓶颈保护器 (IBProtector) 是一种立足于信息瓶颈原理的防御机制，通过压缩和扰动提示信息，以保留目标大语言模型回应预期答案所需的关键信息，从而有效防止越狱攻击，而不过度影响响应质量或推理速度。

Abstract

The advent of large language models (LLMs) has revolutionized the field of natural language processing, yet they might be attacked to produce harmful content. Despite efforts to ethically align LLMs, these are often fragile and can be circumvented by jailbreaking attacks through optimi

large language models adversarial prompts information bottleneck protector defense mechanism jailbreak attempts

发现论文，激发创造

通过信息瓶颈改善自然语言处理模型对抗攻击鲁棒性

本文利用信息瓶颈理论，研究消除易受攻击的非鲁棒特征，提取任务特定的鲁棒特征。通过大量实验证明，我们的方法可在 SST-2、AGNEWS 和 IMDB 数据集上除了几乎不受性能下降的情况下，在鲁棒准确度上实现显著提高，超过以往任何被报道的方法。

Jun, 2022

解缠结信息瓶颈

本文从监督解缠角度实现信息瓶颈方法，引入 DisenIB，以最大压缩的方式坚持最大化压缩源，而不会损失目标预测性能。理论和实验结果表明，我们的方法在最大压缩方面是一致的，并在泛化、对抗攻击鲁棒性、超出分布检测和监督解缠等方面表现良好。

Dec, 2020

自护：赋予 LLM 保护自身能力

利用自我保护方法 (Self-Guard) 来解决语言模型 (LLM) 被越狱攻击的问题，包括增强模型对有害内容的检测能力以及指导模型在自我响应中进行有害内容检测，实验证明自我保护方法对抵御越狱攻击具有鲁棒性且不会降低 LLM 的性能。

Oct, 2023

InfoBERT: 从信息理论的角度提高语言模型的鲁棒性

从信息论的角度出发，我们提出了 InfoBERT 框架来增强预训练语言模型的鲁棒性，包含两种基于相互信息的正则化器：信息瓶颈正则化器和鲁棒特征正则化器。实验证明，该方法在 NLI 和 QA 任务上取得了最先进的鲁棒性的结果。

Oct, 2020

SmoothLLM: 对抗越狱攻击的大型语言模型防御

为了解决大型语言模型在破解攻击中的脆弱性，提出了 SmoothLLM 算法，通过对输入的随机扰动和聚合进行检测，降低了攻击成功率，并在攻击缓解上提供了可证明的保证。

Oct, 2023

LLM 越狱攻击与防御技术 -- 综合研究

该研究对破解大型语言模型（LLMs）及其防御技术进行了全面分析，评估了九种攻击技术和七种防御技术应用于 Vicuna、LLama 和 GPT-3.5 Turbo 三个不同语言模型的效果，并释放了数据集和测试框架，以促进 LLM 安全领域的进一步研究。

Feb, 2024

因果信息瓶颈提升深度神经网络对抗性鲁棒性

本文将因果推断应用于信息瓶颈方法中，通过仪器变量对特征进行分离，以减轻因虚假相关性导致的限制，提高对抗鲁棒性。大量实验结果表明，该方法在 MNIST、FashionMNIST 和 CIFAR-10 数据集中有明显的对抗攻击鲁棒性。

Oct, 2022

信息瓶颈下的解释再生

研究开发了一种名为信息瓶颈方法的技术，该技术可以生成自然而准确的自由文本解释来解释自然语言生成模型的输出，并且在两个领域任务的自动评估和人类评估中得到了验证。

Dec, 2022

通过目标优先级保护大型语言模型抵御越狱攻击

通过将目标优先级整合到训练和推理阶段，我们提出了一种对抗越狱攻击的方法，显著降低了越狱攻击的成功率，并减少了大型语言模型的潜在安全风险。

Nov, 2023

通过信息瓶颈原理进行文本表示精简

为了使模型更加易用，我们提出了一种基于信息瓶颈的知识蒸馏方法 IBKD，通过最大化教师模型和学生模型的最终表示之间的互信息，并减少学生模型表示和输入数据之间的互信息，以保留重要的学习信息并避免过拟合的风险，从而有效地在文本表示和下游任务中应用。

Nov, 2023