高效快速的规模化模型编辑
通过引入一种新的方法,即 SCEN(通过定制化专家网络的可扩展性模型编辑),我们在两个不同大小的开源大语言模型 Llama2 7B 和 13B 上取得了与现有主流模型编辑方法相比的最新成果。
Apr, 2024
介绍了一种基于 Semi-Parametric Editing with a Retrieval-Augmented Counterfactual Model (SERAC) 的模型编辑方法,具备内存高、编辑表达能力强的特点,能够高效地处理基于问答、事实核查和对话生成的 3 种具有挑战性的语言模型编辑问题。
Jun, 2022
使用 MAssive Language Model Editing Network (MALMEN) 方法,以超网络生成参数移位来校正大型语言模型中的知识误差和过时问题。该方法可同时编辑多个事实,并比特定于 GPT 的编辑器在知识密集型 NLP 任务上表现更佳。
Nov, 2023
该研究探讨了神经网络的编辑问题,提出了 Editable Training,这是一种模型无关的训练技术,以便快速修补模型的错误,并在大规模图像分类和机器翻译任务中进行了实证研究。
Apr, 2020
本研究在 Encoder-Decoder transformer 模型中提出了 4 种编辑任务,并展示了这种直接干预方法的高效性,只需一个有效实例就能修复错误的负面模型行为。
Nov, 2022
本研究提出一种被称为 Transformer-Patcher 的神经网络模型,能够通过简单地添加和训练最后一层前馈网络中的少量神经元,连续纠正长序列中的错误,达到了顺序模型编辑(SME)的最优表现,解决了工业环境中部署的模型如何快速准确地修正错误问题。
Jan, 2023
大型语言模型的编辑知识是一种有吸引力能力,允许我们在预训练期间纠正学习不正确的事实,并在模型中更新日益增长的新事实清单。然而,现有的模型编辑技术通常使用可靠性、特异性和对一项或少数几个编辑的泛化性指标进行评估。我们认为,为了使模型编辑具有实际效用,我们必须能够对同一模型进行多次编辑。针对当前的两种最先进的方法 ——ROME 和 MEMIT,我们在大规模上评估模型编辑方法。我们发现,随着模型被连续地编辑多个事实,它会不断遗忘先前编辑的事实以及执行下游任务的能力。这种遗忘分为两个阶段 —— 一个初始的逐渐但渐进性的遗忘阶段,后面是突然或灾难性的遗忘阶段。逐渐和灾难性的遗忘都限制了大规模上模型编辑方法的有效性和可扩展性。我们的分析还强调了 ROME 和 MEMIT 在大规模上的其他关键局限性。通过我们的工作,我们推动以可扩展性为中心的模型编辑方法的开发和评估。
Jan, 2024
介绍了一种基于 Transformer 的代码修复方法 NSEdit,其将错误的源代码输入,预测出一个修复序列,使用符合规则语句的神经符号脚本生成编辑程序,并通过指针网络选择编辑位置,经过训练和微调后,在 CodeXGLUE 基准测试中的 Tufano 小数据集上取得了 24.04%的准确度,该方法在程序包与程序包之间的抗干扰能力强。
Apr, 2022
大型语言模型在软件工程领域中成功应用,特别是在代码生成方面。本文提出了一种新颖有效的模型编辑方法( extsc {MENT}),用于修补编程任务中的 LLMs。 extsc {MENT} 基于生成式 LLMs 的机制,在下一个标记预测中实现模型编辑,并进一步支持常见的编码任务。本研究提出了形式化的编辑过程和相关概念,并引入了评估其泛化能力的新指标。在 API-seq 推荐、行级代码生成和伪代码转换任务上,我们的方法优于最先进的方法,并展示了 extsc {MENT} 在软件工程中的应用。
Dec, 2023
本文提出了一种名为 EGNN 的方法,它与 GNN 结合,通过将 MLP 与 GNN 简单拼接来订正模型在分类节点上的预测,以避免了 GNNs 中的邻居扩散的问题。实验证明,EGNN 在多个图数据集上的效果都比现有的基线更好,而且具有更好的想用性与更低的训练时间和内存占用。
May, 2023