Oct, 2024
理解多语言大型语言模型在微调攻击下的脆弱性
Towards Understanding the Fragility of Multilingual LLMs against
Fine-Tuning Attacks
TL;DR本研究针对多语言大型语言模型(LLMs)在微调攻击下的脆弱性展开分析,揭示了微调攻击存在跨语言的泛化问题。通过提出安全信息定位(SIL)方法,验证了安全相关信息具有语言无关性,发现仅通过改变20%的权重参数,就能够破坏LLMs的安全对齐,具有重要的安全指导意义。