Apr, 2024

使用信息瓶颈保护您的 LLMs

TL;DR信息瓶颈保护器 (IBProtector) 是一种立足于信息瓶颈原理的防御机制,通过压缩和扰动提示信息,以保留目标大语言模型回应预期答案所需的关键信息,从而有效防止越狱攻击,而不过度影响响应质量或推理速度。