Mind the Gap: 评估神经语言模型的时间泛化能力

Feb, 2021

Mind the Gap: 评估神经语言模型的时间泛化能力

Mind the Gap: Assessing Temporal Generalization in Neural Language Models

Angeliki Lazaridou, Adhiguna Kuncoro, Elena Gribovskaya, Devang Agrawal, Adam Liska...

TL;DR研究表明，Transformer-XL 语言模型在预测超出其训练期的未来话语时，性能会随着时间的推移而逐渐降低。基于此，提出了动态语言建模的思路，并通过不断更新知识来缓解性能退化问题。因此，应重新思考我们目前培训和评估语言模型的方法，并发展出适应我们日益变化和非稳定的世界的自适应语言模型。

Abstract

Our world is open-ended, non-stationary, and constantly evolving; thus what we talk about and how we talk about it change over time. This inherent dynamic nature of language contrasts with the current static language modelling paradigm, which trains and evaluates models on utterances from overlapping time periods. Despite impressive recent progress, we demon

transformer-xl dynamic language modelling performance degradation continual knowledge update adaptive language models

发现论文，激发创造

利用词汇语义变化提高预训练语言模型的时间泛化能力

本论文提出了一种基于词汇层面 masking 的后训练策略，以此来解决大规模神经语言模型在时间通用性方面存在的问题，实验证明该方法在两个预训练语言模型、两种不同分类任务和四个基准数据集上效果优于现有的连续训练策略。

Oct, 2022

评估 LLMs 在时间泛化上的表现

大语言模型的发展迫切需要与语言理解和信息处理的提升相适应的评估方法。我们检查了当前的大语言模型，并揭示了它们在时间推理和偏见方面存在的各种时间偏见。我们提出了一个评估框架 Freshbench，用于动态生成最新的现实世界预测性预测的评估基准。

May, 2024

TemporalWiki：面向训练与评估不断进化语言模型的终身基准

通过使用连续快照之间的差异作为训练和评估数据，我们介绍了一个终身学习基准测试 ——TemporalWiki，旨在评估语言模型在频繁更新的知识库，如维基百科，中获取和保留知识的能力，并发现通过继续学习方法使用 diff 数据进行训练可以通过少量的训练数据安全地更新 LM 中的事实知识。

Apr, 2022

社交媒体中语言模型的时间泛化的系统分析

该研究论文主要研究机器学习中的时序转变对社交媒体的影响，通过提出一种统一的评估方案，发现语言模型在不同时间设置下会出现性能下降，尤其在命名实体识别、仇恨言论检测等任务中。而在主题分类和情感分类等任务中，性能下降不明显，同时发现对测试期进行连续预训练并不能提高语言模型的时序适应能力。

May, 2024

抓住时机：关于终身语言模型中世界知识评估的研究

为了解决语言模型在知识不断演进的情况下需要获取新知识并更新旧知识的问题，我们引入了一个新颖的基准测试，EvolvingQA，它用于训练和评估语言模型在一个不断演进的维基百科数据库上的能力，通过引入问题回答作为下游任务模拟了真实世界应用。通过研究发现，现有的持续学习基准在更新和遗忘过时知识方面存在困难，主要是由于小的权重梯度导致模型无法学习到更新的知识。此外，我们发现模型在提供数值或时间答案以及问及更新知识的问题上遇到了较大困难。我们的工作旨在对真实世界信息的动态性进行建模，并为语言模型的演进适应能力提供了一个强有力的度量。

Nov, 2023

预训练模型在语言处理任务中的时间效应

研究语言科技的效能随时间的变化是非常实用的。本文研究了模型性能在下游语言任务中的时间效应，建立了相应术语，识别了进行强有力研究的关键因素，以英语为例，展示了任务的实验，发现依赖于时间的标签正确性并不会降低模型性能，但考虑时域的适应是有益的。自标记表现最佳。

Nov, 2021

大型语言模型中的时间盲点

该研究旨在调查通用型大型语言模型在需要时间理解的任务中面临的潜在限制，针对三个流行的时间问答数据集，我们发现大型语言模型在关于过去和新信息的详细问题上表现较差，存在多个时间错误，我们的分析有助于理解大型语言模型的局限性，并为开发更好满足时间导向任务需求的未来模型提供有价值的见解。

Jan, 2024

自适应半参数语言模型

该研究提出了一种结合大型参数神经网络和非参数周期性记忆组件的语言模型，通过缓存本地隐藏状态和检索一组最近的邻居标记来使用扩展的短期上下文和全局长期记忆，并设计门控函数来自适应地组合多个信息源来做出预测。

Feb, 2021

多视角时间概念漂移下掩码语言模型的动态基准测试

该研究在 Wikidata 数据集上，评估了 11 个预训练的蒙面语言模型对时间概念漂移的影响，以确保其能够适应不断更新的现实世界的事实更新，并提供了一个综合框架来构建不同时间粒度的事实数据集，并通过多个评估角度来评估模型是否过时。

Feb, 2023

基于时间感知的语言模型作为时态知识库

介绍了一个用于探讨语言模型在知识更新方面的诊断数据集，提出了一种将文本与时间戳共同建模的简单技术来改善语言模型在训练时期已知事实的记忆和对未来时间段内未知事实的预测。还展示了通过时态语境训练的语言模型可以高效 “刷新”，而无需从头开始重新训练。

Jun, 2021