精调语言模型的权重中编码了时间

Dec, 2023

精调语言模型的权重中编码了时间

Time is Encoded in the Weights of Finetuned Language Models

Kai Nylund, Suchin Gururangan, Noah A. Smith

TL;DR我们提出了时间向量，这是一种在新的时期自定义语言模型的简单工具。时间向量通过在单个时间段（例如一年或一个月）的数据上对语言模型进行微调，然后减去原预训练模型的权重来创建。我们的实验结果表明，这个向量指定了在权重空间中的一个方向，在该时间段的文本上可以提高性能。在连续的时间段上定制的时间向量似乎在流形中靠得更近。利用这个结构，我们可以在时间向量之间插值，从而产生在介入和未来时间段上表现更好的新模型，而无需进行额外的训练。我们的研究结果表明，时间被编码在微调模型的权重空间中。

Abstract

We present time vectors, a simple tool to customize language models to new time periods. time vectors are created by →

time vectors language models finetuning performance time scales

发现论文，激发创造

Time2Vec：学习时间的向量表示

本文提出一种基于向量的时间表示模型 Time2Vec，具有模型无关特性，可以被轻松地导入到现有和未来的架构中，以提高模型性能。通过在多个模型和问题中的实验证明，将时间概念替换为其 Time2Vec 表示可以提高最终模型的性能。

Jul, 2019

动态词向量

该研究提出了一种基于概率的语言模型，可以跟踪个别单词随时间的语义演变，并通过嵌入空间中的潜在轨迹表示单词和上下文。研究发现，该动态模型推断的单词嵌入轨迹更易解释，并且具有更高的预测性可能性。

Feb, 2017

使用指南针训练时间词嵌入

本文提出了一种基于 Word2Vec 模型的新启发式方法来训练时间词嵌入，即使用不随时间变化的向量作为参考来简化训练过程以提高效率，并在现有数据集上进行的实验结果表明该方法比其他可比较方法表现更好且对语料库大小有更高的鲁棒性。

Jun, 2019

TimeBERT：用时间信息扩展预训练的语言表示

该研究探究了在预训练中引入时间信息以提高 NLP 和 IR 任务性能的方法，使用长跨度的新闻文章作为训练语料库，提出了 TimeBERT，并且 TimeBERT 在时间相关任务上表现优异，超过了 BERT 和其他预训练模型。

Apr, 2022

面向时间语言模型的时间掩码技术

本文介绍了一种基于时间的上下文语言模型 TempoBERT，通过添加时间信息和进行特定的时间掩码来适应语言的动态性，并在不同的数据集上进行了实验，证明利用时间掩码可以在语义变化检测和句子时间预测任务中得到好的效果。

Oct, 2021

朝有效时间感知的语言表示：探索语言模型中增强的时间理解

本研究探讨了在自然语言处理领域中理解文本的时间背景的方法，并介绍了一种新型语言模型 BiTimeBERT 2.0，该模型通过预训练在一个时间新闻文章集合上，利用三种创新的预训练目标以有效地获得时间感知的语言表示，从而在与时间相关的任务中实现改进的性能。实验结果显示，BiTimeBERT 2.0 在多种依赖时间的下游自然语言处理任务和应用中显著优于 BERT 和其他现有的预训练模型。

Jun, 2024

为深度时序排序模型嵌入时间表达式

本文介绍一种框架来将时间感知融入模型，方法是通过学习预先训练的模型嵌入时间表达式，生成由时间表达式和相关事件组成的合成数据，使用字符 LSTM 学习嵌入并分类时间表达式的时间关系，在强神经模型的上下文中评估嵌入的效用，并在 MATRES 数据集上表现出微小的提高，对于具有更频繁的事件时间交互的自动收集数据集则提供了更实质性的收益。

Jun, 2019

设定时钟：预训练语言模型的时间对齐

通过对预训练语言模型进行时间对齐，本研究探索了将内在知识与目标时间对齐的方法，并发现对年份为 2022 的 LLaMa2 模型进行对齐可以将其性能相对提高 62%，此外，该研究还发现对历史时间进行对齐同样是可行的，可以使模型在 2010 年的性能提高 2.8 倍。

Feb, 2024

TimeLMs: 从 Twitter 构建历时语言模型

本文介绍了 TimeLMs，这是一组针对历时推特数据的语言模型。采用持续学习策略，增强了其处理未来和分布外推特以及应对特定命名实体和概念漂移等方面的能力，使其与标准和更加单一的基准模型相竞争。

Feb, 2022

通过神经语言模型进行语言的时间分析

该论文提出了一种自动检测语言变化的方法，通过一个按年度训练的神经语言模型来训练 Google Books Ngram 语料库，识别出 “cell” 和 “gay” 等单词在 1900 年至 2009 年间发生了显著变化并同时识别出这些单词发生变化的具体年份。

May, 2014