Feb, 2025

FALCON: 通过对比正交未对齐实现大语言模型的细粒度激活操控

TL;DR本研究解决了大语言模型在编码敏感或有害信息方面的安全隐患,提出了一种新的表示引导的机器遗忘方法FALCON,通过信息论指导高效选择参数,使用对比机制增强表示分离,并将冲突梯度投影到正交子空间,从而有效平衡遗忘和保留目标之间的冲突。实验结果表明,FALCON在实现遗忘有效性的同时,保持了模型的实用性,并展现出强大的知识恢复抵抗力。