模型编辑的蝴蝶效应：少量编辑可触发大型语言模型崩溃

Feb, 2024

模型编辑的蝴蝶效应：少量编辑可触发大型语言模型崩溃

The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse

Wanli Yang, Fei Sun, Xinyu Ma, Xun Liu, Dawei Yin...

TL;DR模型编辑的影响、用困惑度作为衡量指标、顺序编辑和困难案例的研究，以及开发 HardCF 数据集探索模型编辑的潜在风险。

Abstract

Although model editing has shown promise in revising knowledge in Large Language Models (LLMs), its impact on the inherent capabilities of LLMs is often overlooked. In this work, we reveal a critical phenomenon: even a single edit can trigger →

model editing knowledge revision model collapse perplexity hard cases

发现论文，激发创造

大型语言模型知识编辑的陷阱揭示

本文旨在探索对大型语言模型进行知识编辑可能带来的潜在问题，并提出了基准数据集和创新评估指标来研究这些问题。实验结果显示，知识编辑可能意外产生对大型语言模型的意想不到的后果，因此需要引起关注并进行进一步研究。

Oct, 2023

知识编辑方法如何有效编辑让人困惑的知识？

大语言模型知识编辑的挑战在于不同类型的知识以及层次关系对编辑效果的影响。本研究通过量化知识的困惑度并评估编辑方法的效果，发现新知识的困惑度与编辑效果存在负相关。进一步研究发现，抽象概念更困惑，而层次关系对编辑结果有影响。研究提供了更深入的大语言模型编辑挑战以及未来模型编辑的启示。

Jun, 2024

模型编辑可能损害大型语言模型的普适能力

通过对两个大型语言模型在八个代表性任务类别上评估四种常用的编辑方法进行广泛实证研究后，我们发现模型的编辑能够提高模型的事实性，但会显著损害模型的通用能力，因此我们呼吁更多的研究努力来最小化在大语言模型预训练期间获得的通用能力的损失，并在模型编辑过程中最终保留它们。

Jan, 2024

大型语言模型编辑：问题、方法和机遇

本研究旨在探讨大型语言模型的编辑问题，提出当前最先进的编辑方法并构建了一个新的基准数据集进行实证分析，从而为研究社区在选择适用于特定任务或上下文的最合适的方法时提供有价值的见解。

May, 2023

大型语言模型能否稳健地进行编辑？

大语言模型的编辑方法在实际应用中存在明显的性能衰退，更流行的知识难以编辑且对性能和鲁棒性有较强关联。

Feb, 2024

跨界拓展：模型编辑对跨语言性能的影响研究

该研究通过考察多语境下的几种知识编辑技术，战略性地确定了语言平等的需求。我们评估了 Mistral、TowerInstruct、OpenHathi、Tamil-Llama 和 Kan-Llama 等模型在英语、德语、法语、意大利语、西班牙语、印地语、泰米尔语和卡纳达语等语言上的性能。研究发现了跨语言一致性方面正常模型和合并模型之间的显著差异。我们采用 “每种语言为自己”（ELFI）和 “每种语言为他人”（ELFO）等策略对这些模型进行了强化测试。研究结果表明，LMM 具有克服语言障碍的潜力，为实现人工智能技术中的语言包容性奠定了基础。

Jun, 2024

ROME 的倒台：对 LLMs 在模型编辑中崩溃的理解

尽管模型编辑方法取得了显著进展，但在实际场景中应用仍然具有挑战性，因为它们经常导致大型语言模型发生崩溃。本文研究了这种崩溃的根本原因，并通过广泛的分析，确定了导致崩溃的两个主要因素。为了验证我们的分析，我们提出了一种简单而有效的方法：在编辑阶段统一使用带前缀的键，并在测试阶段添加前缀。实验结果表明，这种解决方案可以预防模型崩溃，同时保持编辑的有效性。

Jun, 2024

EasyEdit: 适用于大型语言模型的易于使用的知识编辑框架

大型语言模型（LLMs）通常存在知识截断或谬误问题，为解决此问题，我们提出了 EasyEdit，一个易于使用的 LLMs 知识编辑框架，它支持各种前沿的知识编辑方法，并在可靠性和推广性方面超过了传统微调。

Aug, 2023

模型编辑用于社会去偏倚的潜力和挑战

大型语言模型具有刻板印象偏见，模型编辑方法能够缓解这一问题，本研究通过综合性研究从多个角度评估了七种模型编辑算法在刻板偏见消除中的潜力和挑战，同时提出了两种简单有效的方法以提升刻板偏见的编辑效果。

Feb, 2024

模型编辑中的遗漏部分：对模型编辑带来的隐藏损害的深入探究

该论文提出了一种用于评估和缓解大型语言模型编辑中的涟漪效应的方法，通过引入 GORA 和 SORA 方法，实现了对模型编辑的量化评估，有效解决了当前模型编辑方法中存在的隐藏空间涟漪效应问题，推进了大型语言模型编辑技术的发展。

Mar, 2024