语言模型的时间注意力

ACLFeb, 2022

Temporal Attention for Language Models

Guy D. Rosin, Kira Radinsky

TL;DR该研究提出了一种时间感知的自注意力机制 —— 时间注意力，用于任何基于变形器模型的预训练语言模型中，以捕捉上下文中的时间信息，并应用于语义变化检测任务，在三个不同语言的数据集上取得最先进的结果。

Abstract

pretrained language models based on the transformer architecture have shown great success in NLP. Textual training data often comes from the web and is thus tagged with time-specific information, but most languag

pretrained language models transformer architecture temporal attention self-attention mechanism semantic change detection

发现论文，激发创造

神经机器翻译的时间注意模型

本文介绍了一种基于注意力机制的神经机器翻译模型，该模型通过暂时性存储对齐信息和调节注意力值的方法，提高了翻译效果，在两种语言对上的大规模实验中，该方法不仅超越了基线 NMT 模型，还比其他相关方法表现更出色，甚至有些情况下在不使用集成的情况下也能胜过 SMT 基准。

Aug, 2016

朝有效时间感知的语言表示：探索语言模型中增强的时间理解

本研究探讨了在自然语言处理领域中理解文本的时间背景的方法，并介绍了一种新型语言模型 BiTimeBERT 2.0，该模型通过预训练在一个时间新闻文章集合上，利用三种创新的预训练目标以有效地获得时间感知的语言表示，从而在与时间相关的任务中实现改进的性能。实验结果显示，BiTimeBERT 2.0 在多种依赖时间的下游自然语言处理任务和应用中显著优于 BERT 和其他现有的预训练模型。

Jun, 2024

面向时间语言模型的时间掩码技术

本文介绍了一种基于时间的上下文语言模型 TempoBERT，通过添加时间信息和进行特定的时间掩码来适应语言的动态性，并在不同的数据集上进行了实验，证明利用时间掩码可以在语义变化检测和句子时间预测任务中得到好的效果。

Oct, 2021

关注实体以获得更好的文本理解

在自然语言处理中，通过将共指信息作为辅助监督注入到目前现有的预训练模型中，能够提升模型在需要进行复杂和长距离推理的任务中的表现，从而超过目前最大的 GPT-2 模型，同时仅含有一小部分的参数。

Nov, 2019

利用语法感知的局部注意力提升 BERT 性能

本文提出一种基于句法结构的局部语义注意力机制，将其与 BERT 等预训练语言模型相结合，提高对句子中句法相关词的关注度，在单句分类和序列标注等任务中实现了一致性增益。

Dec, 2020

分析 Transformer 语言模型中的注意力结构

本文研究了基于注意力机制的 Transformer 模型在自然语言处理中的应用，通过对 GPT-2 模型的注意力结构的可视化和大规模语料库的分析，发现模型在不同层次区分不同词性并在中间层次最强烈地关注依赖关系，最深层次关注最远程的联系，并抽取了展现特定关注头目标的范例句子。

Jun, 2019

TimeBERT：用时间信息扩展预训练的语言表示

该研究探究了在预训练中引入时间信息以提高 NLP 和 IR 任务性能的方法，使用长跨度的新闻文章作为训练语料库，提出了 TimeBERT，并且 TimeBERT 在时间相关任务上表现优异，超过了 BERT 和其他预训练模型。

Apr, 2022

基于依赖感知自注意力机制的机器翻译增强

本文研究了将句法知识纳入 Transformer 模型的不同方法，并提出一种新的、无需参数的依赖感知自注意机制，能够提高其翻译质量，特别是在长句子和低资源情况下。作者在 WMT 英德、英土和 WAT 英日翻译任务中展示了每种方法的有效性。

Sep, 2019

神经序列模型中自注意力的理论限制

本文研究了自注意力在建模形式语言方面的计算能力，发现其在处理分层结构时存在强烈的理论限制，但在自然语言处理方面表现卓越。

Jun, 2019

利用持久内存扩展自注意力

该研究提出了一种新的模型，该模型仅由注意力层组成。在具体实现中，加入了持续性存储向量来代替前馈层，这样我们可以去除前馈层但不会降低 transformer 的性能。研究显示，该模型在标准字符和词级语言建模基准上表现出良好的效果。

Jul, 2019