Feb, 2024

免疫有害微调攻击

TL;DR通过提出 “免疫条件” 作为对抗有害微调攻击的一种形式框架,并实验性地使用对抗性损失示范对 LLama2-7b-chat 进行免疫,我们综合了不同的研究方向,以预防有害微调攻击。