Jan, 2024

大型语言模型重新学习已删除的概念

TL;DR模型编辑、神经元修剪、概念再学习、显著性和相似性、概念移除是本研究的关键词。通过追踪重新训练时修剪神经元中的概念显著性和相似性,我们的发现显示模型能够通过将先进概念重新定位到早期层和将修剪概念分配给具有类似语义的神经元来快速恢复修剪后的性能,这表明模型表现出多语义能力,能够在单个神经元中融合新旧概念。虽然神经元修剪能够解释模型的概念,我们的结果突显了永久概念移除以改善模型安全性所面临的挑战。监控概念再出现并开发技术来减轻对不安全概念的再学习将是更强健的模型编辑的重要方向。总体而言,我们的工作极大地展示了概念表征在概念移除后的语言模型中的弹性和流动性。