编辑批次大小越大越好吗？--- 基于 Llama-3 的模型编辑的经验研究

May, 2024

编辑批次大小越大越好吗？--- 基于 Llama-3 的模型编辑的经验研究

Is Bigger Edit Batch Size Always Better? -- An Empirical Study on Model Editing with Llama-3

Junsang Yoon, Akshat Gupta, Gopala Anumanchipalli

TL;DR本研究重点针对最新的大型语言模型 Llama-3 进行了定向模型编辑分析。我们探讨了针对精确层次干预设计的流行模型编辑技术 ——ROME、MEMIT 和 EMMET 的有效性。通过对三种不同策略（顺序编辑、批次编辑和顺序 - 批次编辑）的 4096 次编辑进行评估，我们确定了最有效的编辑层次。我们的发现表明，增加编辑批次大小可能会比使用较小的编辑批次按顺序执行相同数量的编辑更明显地降低模型性能。基于此，我们认为顺序模型编辑在扩展模型编辑方法方面是一个重要组成部分，并且未来的研究应该专注于将批量编辑和顺序编辑相结合的方法。这一观察表明了当前模型编辑方法在推动更大的编辑批次大小方面存在潜在限制，我们希望这为优化批次大小和模型编辑性能的未来研究铺平道路。

Abstract

This study presents a targeted model editing analysis focused on the latest large language model, Llama-3. We explore the efficacy of popular model editing techniques - ROME, MEMIT, and EMMET, which are designed

targeted model editing large language model model editing techniques sequential editing batch editing

发现论文，激发创造

规模化的模型编辑导致渐进性和灾难性遗忘

大型语言模型的编辑知识是一种有吸引力能力，允许我们在预训练期间纠正学习不正确的事实，并在模型中更新日益增长的新事实清单。然而，现有的模型编辑技术通常使用可靠性、特异性和对一项或少数几个编辑的泛化性指标进行评估。我们认为，为了使模型编辑具有实际效用，我们必须能够对同一模型进行多次编辑。针对当前的两种最先进的方法 ——ROME 和 MEMIT，我们在大规模上评估模型编辑方法。我们发现，随着模型被连续地编辑多个事实，它会不断遗忘先前编辑的事实以及执行下游任务的能力。这种遗忘分为两个阶段 —— 一个初始的逐渐但渐进性的遗忘阶段，后面是突然或灾难性的遗忘阶段。逐渐和灾难性的遗忘都限制了大规模上模型编辑方法的有效性和可扩展性。我们的分析还强调了 ROME 和 MEMIT 在大规模上的其他关键局限性。通过我们的工作，我们推动以可扩展性为中心的模型编辑方法的开发和评估。

Jan, 2024

模型编辑的统一框架

模型编辑是一个在更新模型中嵌入的知识方面不断发展的领域，本文针对 “定位和编辑” 模型编辑技术中的两种方法 ——ROME 和 MEMIT，提出了一个统一框架，将其优化为针对相同目标的 “保持记忆” 的目标，并提出了 EMMET 算法作为一种基于等式约束的批量记忆编辑算法。

Mar, 2024

模型编辑用于社会去偏倚的潜力和挑战

大型语言模型具有刻板印象偏见，模型编辑方法能够缓解这一问题，本研究通过综合性研究从多个角度评估了七种模型编辑算法在刻板偏见消除中的潜力和挑战，同时提出了两种简单有效的方法以提升刻板偏见的编辑效果。

Feb, 2024

模型编辑的蝴蝶效应：少量编辑可触发大型语言模型崩溃

模型编辑的影响、用困惑度作为衡量指标、顺序编辑和困难案例的研究，以及开发 HardCF 数据集探索模型编辑的潜在风险。

Feb, 2024

我们能编辑多模大语言模型吗？

本研究聚焦于编辑多模态大型语言模型（MLLMs），通过构建名为 MMEdit 的新基准测试和创新评估指标，以提供对多模态 LLMs 进行编辑的相关研究和改进效果的综合实验和分析，旨在为自然语言处理社区提供深入的见解。

Oct, 2023

模型编辑的长篇评估

模型编辑评估中长文本生成的有效性及影响的新型评估方法（LEME）揭示了模型编辑方法的新维度，其中一些方法在有限范围内具有良好的一致性，但更容易出现事实偏移问题。

Feb, 2024

连续模型编辑和批次处理，搭配 HooK 层

通过开发内存友好型的 COMEBA-HK 模型编辑方法，我们解决了连续批量支持型模型编辑方法在时间和资源消耗方面的挑战，并在单轮和连续批量编辑场景下证明了我们方法的卓越性能。

Mar, 2024

大型语言模型能否稳健地进行编辑？

大语言模型的编辑方法在实际应用中存在明显的性能衰退，更流行的知识难以编辑且对性能和鲁棒性有较强关联。

Feb, 2024

大型语言模型编辑：问题、方法和机遇

本研究旨在探讨大型语言模型的编辑问题，提出当前最先进的编辑方法并构建了一个新的基准数据集进行实证分析，从而为研究社区在选择适用于特定任务或上下文的最合适的方法时提供有价值的见解。

May, 2023

大规模语言模型的鲁棒可扩展模型编辑

利用 EREN（通过阅读笔记编辑模型）提出方法来提高大型语言模型的可伸缩性和鲁棒性，通过正确响应语法相似但语义无关的输入以及从多个修改中整合知识，优于现有技术。

Mar, 2024