模型编辑的长篇评估
修改存储在大型语言模型中的错误事实或注入新事实的记忆编辑(ME)方法已被证明是有效的。然而,先前的研究在 ME 评估方面存在两个关键限制:仅评估单个编辑的 LLMs,忽视了连续编辑的需求,以及仅关注基本事实三元组的评估,忽略了更广泛的 LLM 能力如逻辑推理和阅读理解。这项研究通过三个方面解决了这些限制,并发现参数修改型 ME 在几个连续编辑后会显著降低性能,而参数保持型 ME 则能有效地保持 LLMs 的基本能力,但在以不同格式呈现的已编辑知识的准确记忆方面存在困难。此外,该研究还提出了几种可能缓解 ME 不利影响的策略,并从参数修改、语言建模能力和上下文学习能力三个维度进一步解释了为何参数修改型 ME 会损害 LLMs。这项深入研究倡导在实际应用中更谨慎地使用 ME。
Feb, 2024
大型语言模型的编辑知识是一种有吸引力能力,允许我们在预训练期间纠正学习不正确的事实,并在模型中更新日益增长的新事实清单。然而,现有的模型编辑技术通常使用可靠性、特异性和对一项或少数几个编辑的泛化性指标进行评估。我们认为,为了使模型编辑具有实际效用,我们必须能够对同一模型进行多次编辑。针对当前的两种最先进的方法 ——ROME 和 MEMIT,我们在大规模上评估模型编辑方法。我们发现,随着模型被连续地编辑多个事实,它会不断遗忘先前编辑的事实以及执行下游任务的能力。这种遗忘分为两个阶段 —— 一个初始的逐渐但渐进性的遗忘阶段,后面是突然或灾难性的遗忘阶段。逐渐和灾难性的遗忘都限制了大规模上模型编辑方法的有效性和可扩展性。我们的分析还强调了 ROME 和 MEMIT 在大规模上的其他关键局限性。通过我们的工作,我们推动以可扩展性为中心的模型编辑方法的开发和评估。
Jan, 2024
评估大型语言模型的知识编辑能力和知识迁移效果的新基准 Eva-KELLM,采用原始文档进行知识编辑,从多个角度评估其效果,研究发现当前使用原始文档进行知识编辑的方法在处理修改后的知识以及跨语言知识迁移时效果不佳。
Aug, 2023
我们提出了评估长上下文语言模型的标准化评估方法,开发了包含 411 个长文档和超过 2,000 个查询 - 回复对的 L-Eval,经过作者手工注释和检查。结果表明,开源模型在开放式任务和封闭式任务上都表现出令人印象深刻的性能,其中 LLaMA2 在 4k 上下文长度的开放式任务中获得最佳结果,而 ChatGLM2 在 8k 输入标记的封闭式任务中取得最佳结果。
Jul, 2023
通过评估多个用户定义的标准,使用自然语言描述系统的评估器提供的反馈,从而使开发人员能够通过迭代改进引导语。与手动评估相比,EvalLM 有助于参与者构建更多样化的标准,检查两倍数量的输出,并在减少 59% 的修订次数后获得令人满意的引导语。该研究可扩展到模型评估和特定应用环境中的对齐。
Sep, 2023
本文提出一种通过预测编辑操作集合来实现本地序列转导任务的方法,并使用指令调整来对大型语言模型进行监督学习,实验证明该方法在常见任务中具备与基线模型相当的性能,同时可将目标文本长度缩小 21%。
May, 2023
通过一个仔细设计的代码编辑任务基准以及结合自然语言指令的训练集,我们评估了几个最先进的大型语言模型,并揭示了现有开源和闭源模型之间的显著差距。同时,我们展示了通过精细调优开源代码语言模型可以显著提高其代码编辑能力。
Dec, 2023
大型语言模型 (Large Language Models) 在理解和生成与人类交流非常相似的文本方面表现出非凡的能力。然而,由于其广泛的参数化,训练过程中存在重大的计算需求限制。这种挑战由于世界的动态性而进一步加剧,需要经常更新 LLM 以纠正过时的信息或整合新知识,从而确保它们持续具有相关性。近年来,对于即时修改模型的高效轻量级方法引起了越来越多的关注。本文首先定义了知识编辑问题,然后提供了对最前沿方法的全面回顾。在教育和认知研究理论的启发下,我们提出了一个统一的分类准则,将知识编辑方法分为三类:利用外部知识、将知识合并到模型中以及编辑内在知识。此外,我们引入了一个新的基准 KnowEdit,以对代表性的知识编辑方法进行综合实证评估。此外,我们对知识定位进行了深入分析,从而更深入地了解 LLM 固有的知识结构。最后,我们讨论了知识编辑的几个潜在应用,并概述了它的广泛而有影响力的意义。
Jan, 2024
当前研究主要关注白盒大语言模型(LLMs)编辑,忽略了一个重要的场景:黑盒 LLMs 编辑,其中 LLMs 通过接口进行访问,仅有文本输出可用。为了解决现有评估不适用于黑盒 LLMs 编辑且不具备全面性的局限性,我们提出了一个多角度评估框架,首次加入了风格保留的评估。为了解决当前方法中的编辑数据隐私泄露和过度编辑风格的问题,我们引入了一种新的 postEdit 框架,通过下游后处理解决隐私问题,并通过细粒度编辑保持文本风格一致。两个基准实验和分析表明,postEdit 超过了所有对比基准并实现了强大的泛化性能,特别是在风格保留上获得了巨大的提升(平均提高了 20.82%)。
Feb, 2024