连续模型编辑和批次处理,搭配 HooK 层
介绍了一种基于 Semi-Parametric Editing with a Retrieval-Augmented Counterfactual Model (SERAC) 的模型编辑方法,具备内存高、编辑表达能力强的特点,能够高效地处理基于问答、事实核查和对话生成的 3 种具有挑战性的语言模型编辑问题。
Jun, 2022
本研究重点针对最新的大型语言模型 Llama-3 进行了定向模型编辑分析。我们探讨了针对精确层次干预设计的流行模型编辑技术 ——ROME、MEMIT 和 EMMET 的有效性。通过对三种不同策略(顺序编辑、批次编辑和顺序 - 批次编辑)的 4096 次编辑进行评估,我们确定了最有效的编辑层次。我们的发现表明,增加编辑批次大小可能会比使用较小的编辑批次按顺序执行相同数量的编辑更明显地降低模型性能。基于此,我们认为顺序模型编辑在扩展模型编辑方法方面是一个重要组成部分,并且未来的研究应该专注于将批量编辑和顺序编辑相结合的方法。这一观察表明了当前模型编辑方法在推动更大的编辑批次大小方面存在潜在限制,我们希望这为优化批次大小和模型编辑性能的未来研究铺平道路。
May, 2024
通过使用数学严谨的闭合形式近似和影响力函数,我们提出了可编辑的概念瓶颈模型(ECBMs),以解决从头重新训练的困境,实现高效率的数据删除和插入操作,从而适应大规模应用中的数据处理需求。
May, 2024
通过层次参数覆盖和由此引起的决策边界畸变,该方法通过 HSIC-Bottleneck 正交化和 EquiAngular 嵌入实现非覆盖参数更新和旧任务与新任务之间的决策边界适应,从而在没有缓冲区的情况下实现了竞争性准确性表现。
Jan, 2024
模型编辑是一个在更新模型中嵌入的知识方面不断发展的领域,本文针对 “定位和编辑” 模型编辑技术中的两种方法 ——ROME 和 MEMIT,提出了一个统一框架,将其优化为针对相同目标的 “保持记忆” 的目标,并提出了 EMMET 算法作为一种基于等式约束的批量记忆编辑算法。
Mar, 2024
MOMoE 是一种模型编辑适配器,采用专家混合(MoE)架构和知识锚定路由策略,以高效地改变大型语言模型(LLMs)的行为,并确保不对其他输入产生负面影响。实验结果表明,MOMoE 方法在整体性能和泛化能力之间展现出卓越的平衡,优于批量编辑和连续批量编辑任务。
May, 2024
本文提出了一种通过多步编辑的方式,建立生成序列的生成模型,以及训练该模型的神经网络,并基于多步编辑提出了基础结果和度量标准。实验结果表明,所提出的模型在相关下游任务上的表现优于以往单步编辑模型的表现。
May, 2022
大型语言模型的编辑知识是一种有吸引力能力,允许我们在预训练期间纠正学习不正确的事实,并在模型中更新日益增长的新事实清单。然而,现有的模型编辑技术通常使用可靠性、特异性和对一项或少数几个编辑的泛化性指标进行评估。我们认为,为了使模型编辑具有实际效用,我们必须能够对同一模型进行多次编辑。针对当前的两种最先进的方法 ——ROME 和 MEMIT,我们在大规模上评估模型编辑方法。我们发现,随着模型被连续地编辑多个事实,它会不断遗忘先前编辑的事实以及执行下游任务的能力。这种遗忘分为两个阶段 —— 一个初始的逐渐但渐进性的遗忘阶段,后面是突然或灾难性的遗忘阶段。逐渐和灾难性的遗忘都限制了大规模上模型编辑方法的有效性和可扩展性。我们的分析还强调了 ROME 和 MEMIT 在大规模上的其他关键局限性。通过我们的工作,我们推动以可扩展性为中心的模型编辑方法的开发和评估。
Jan, 2024
LLMs require continual knowledge updates, and this paper introduces LEMoE, an advanced MoE adaptor for lifelong model editing, addressing issues like catastrophic forgetting and inconsistent routing, with experimental results demonstrating its effectiveness.
Jun, 2024
提出了一个框架以训练非自回归序列到序列模型进行编辑任务,在此过程中,原始输入序列被迭代地编辑以生成输出。通过两种策略解决了在机器翻译训练的模仿学习算法在编辑场景下导致的训练和推断之间不匹配问题,从而显著提高了英文编辑任务上的输出质量和输出复杂度。
Mar, 2022