Jun, 2024

REVS:通过词汇空间中的排名编辑来消除语言模型中的敏感信息

TL;DR通过 REVS 方法,我们可以修改大型语言模型(LLMs)中的少量神经元,从而去除敏感信息、抵御提取攻击,并保持模型的完整性。