Sep, 2024

通过防御感知的架构后门利用大型语言模型的脆弱性

TL;DR本研究针对大型语言模型中存在的后门攻击脆弱性进行深入探讨,弥补了对白盒攻击方法研究的不足。提出了一种新型架构后门攻击,利用独立的模块进行触发检测和噪声注入,有效扰动特征分布。实验表明该攻击方法能够逃避再训练过程和基于输出概率的防御,展示了其对大型语言模型的实际威胁。