May, 2023

MQuAKE: 通过多跳问题评估语言模型中的知识编辑

TL;DR本文探讨了在大型语言模型中注入新事实的技术,并提出了一个包含多跳问题的基准测试 MQuAKE,旨在评估修改后的模型是否能够正确回答受编辑事实影响的问题。我们提出了一个名为 MeLLo 的基于记忆的方法,存储所有编辑过的事实,并提示语言模型根据编辑后的事实迭代生成与之一致的答案。MeLLo 在大型语言模型(高达 175B)中具有良好的可扩展性和超过以往模型编辑器的性能。