May, 2024

生成式大语言模型的后门移除

TL;DR通过提出模拟和消除(SANDE)方法,本文针对生成式大规模语言模型(LLMs)中的后门攻击问题,提出了覆盖式监督微调(OSFT)方法和 SANDE 两阶段框架,以有效去除已知和未知触发器所引起的不良数据映射,实现 LLMs 的安全增强,保持其强大能力,而无需额外访问未受后门攻击的模型。