大型语言模型重新学习已删除的概念

Jan, 2024

大型语言模型重新学习已删除的概念

Large Language Models Relearn Removed Concepts

Michelle Lo, Shay B. Cohen, Fazl Barez

TL;DR模型编辑、神经元修剪、概念再学习、显著性和相似性、概念移除是本研究的关键词。通过追踪重新训练时修剪神经元中的概念显著性和相似性，我们的发现显示模型能够通过将先进概念重新定位到早期层和将修剪概念分配给具有类似语义的神经元来快速恢复修剪后的性能，这表明模型表现出多语义能力，能够在单个神经元中融合新旧概念。虽然神经元修剪能够解释模型的概念，我们的结果突显了永久概念移除以改善模型安全性所面临的挑战。监控概念再出现并开发技术来减轻对不安全概念的再学习将是更强健的模型编辑的重要方向。总体而言，我们的工作极大地展示了概念表征在概念移除后的语言模型中的弹性和流动性。

Abstract

Advances in model editing through neuron pruning hold promise for removing undesirable concepts from large language models. However, it remains unclear whether models have the capacity to reacquire pruned concept

model editing neuron pruning concept relearning saliency and similarity concept removal

发现论文，激发创造

ConceptPrune: 通过技能神经元修剪在扩散模型中进行概念编辑

我们提出了一种简单而有效的无需训练的方法，ConceptPrune，通过首先确定在预训练模型中负责生成不良概念的关键区域，从而以权重修剪的方式便捷地实现概念去学习。实验证明，我们的方法能够高效擦除多个目标概念，仅修剪总权重的约 0.12%，并对多种白盒和黑盒对抗攻击具有鲁棒性。

May, 2024

语言模型解构：通过选择性修剪实现机器遗忘

该研究论文介绍了一种专为大型语言模型（LLMs）设计的机器遗忘方法。通过选择性修剪 LLMs 的方法，根据其相对于整体网络性能对目标能力的重要性，移除能够实现特定行为的神经元。研究发现在 LLMs 中，前馈神经元和注意神经元都是专门用于特定任务的，某些神经元比其他神经元更为重要。

Mar, 2024

扩散模型中的强鲁棒概念擦除修剪

通过选择性修剪与要移除的概念相关的关键参数，改进了概念擦除技术的稳健性，并通过抵抗对抗性输入的实验结果证明了显著改进

May, 2024

神经修剪的连续学习

本篇研究提出了一种名为 CLNP 的方法，通过神经模型稀疏化实现模型固定容量下的全生命周期学习，在这种方法中，使用经过稀疏化网络中的非活动神经元和滤波器来训练后续任务，并对以前任务的性能不会造成任何恶化，此外，CLNP 还提供了简单的学习诊断工具。实验证明，与当前基于权重弹性的方法相比，CLNP 能够显著提高结果。

Mar, 2019

大型语言模型修剪

本研究提出了一种针对 LLMs 的模型修剪技术，强调深度学习模型的可解释性，并通过互信息估计和调参来指导修剪过程。同时，还探讨了大规模模型和小规模模型的修剪差异，并展示了所提出模型相对于现有模型的优越性。

May, 2024

面向鲁棒剪枝：一种自适应知识保留剪枝策略

本文提出了一种基于事先训练的知识的后期剪枝策略，旨在在剪枝过程中保留更多事先训练的知识，从而提高语言模型的鲁棒性。与其他最先进的基准方法相比，在数据集 SST2、IMDB 和 AGNews 上，我们的方法在准确性、稀疏性、鲁棒性和剪枝成本之间展现出了卓越的平衡，这是对语言模型鲁棒剪枝的一大进步。

Oct, 2023

序列标注的语言模型剪枝：高效的上下文表示

本研究提出了一种基于稀疏性诱导正则化的层选择方法，用于压缩大型预训练语言模型，以提高特定任务的计算效率，并在两个基准数据集上进行了实验验证其有效性。

Apr, 2018

大型语言模型的概念知识编辑

该论文探索了在大型语言模型中编辑概念性知识的能力，通过构建一个新的基准数据集 ConceptEdit 和建立一套新的度量标准来评估现有的编辑方法。实验结果表明，虽然现有的编辑方法在某种程度上能有效地修改概念级别的定义，但也有可能扭曲大型语言模型中相关的实例化知识，导致性能下降。这对于更好地理解大型语言模型的能力具有启发意义。

Mar, 2024

神经网络的惊人缩小：经修剪镜头观学习表示的新视角

本文探讨神经网络剪枝问题，在对历史文献进行回顾及常见假设进行分析后，提出了一种新型的神经元全剪枝方法，得出存在许多基于剪枝算法的固有缺陷及为减少计算复杂性而做出的权衡。另外，还发现剪去 40-70% 的神经元实际上对学习表示形式并没有太大的影响。

Jan, 2017

重新思考大型语言模型剪枝：重构误差最小化的好处和陷阱

通过分割模型、顺序修剪、重构稠密对应模型的预测，及时合并稀疏子模型，本文首次提出了一系列重建技术，可以显著降低高复原误差，并发现最小化复原误差并非总是理想的，引入自动生成校准数据的策略以平衡复原和泛化之间的权衡，为剪枝大型语言模型的新方向提供了新思路。

Jun, 2024