Nov, 2023
抓住时机:关于终身语言模型中世界知识评估的研究
Carpe Diem: On the Evaluation of World Knowledge in Lifelong Language
Models
TL;DR为了解决语言模型在知识不断演进的情况下需要获取新知识并更新旧知识的问题,我们引入了一个新颖的基准测试,EvolvingQA,它用于训练和评估语言模型在一个不断演进的维基百科数据库上的能力,通过引入问题回答作为下游任务模拟了真实世界应用。通过研究发现,现有的持续学习基准在更新和遗忘过时知识方面存在困难,主要是由于小的权重梯度导致模型无法学习到更新的知识。此外,我们发现模型在提供数值或时间答案以及问及更新知识的问题上遇到了较大困难。我们的工作旨在对真实世界信息的动态性进行建模,并为语言模型的演进适应能力提供了一个强有力的度量。