关注实体以获得更好的文本理解

AAAINov, 2019

Attending to Entities for Better Text Understanding

Pengxiang Cheng, Katrin Erk

TL;DR在自然语言处理中，通过将共指信息作为辅助监督注入到目前现有的预训练模型中，能够提升模型在需要进行复杂和长距离推理的任务中的表现，从而超过目前最大的 GPT-2 模型，同时仅含有一小部分的参数。

Abstract

Recent progress in nlp witnessed the development of large-scale pre-trained language models (GPT, BERT, XLNet, etc.) based on transformer (Vaswani et al. 2017), and in a range of end tasks, such models have achie

nlp pre-trained language models transformer coreference information lambada task

发现论文，激发创造

利用语法感知的局部注意力提升 BERT 性能

本文提出一种基于句法结构的局部语义注意力机制，将其与 BERT 等预训练语言模型相结合，提高对句子中句法相关词的关注度，在单句分类和序列标注等任务中实现了一致性增益。

Dec, 2020

分析 Transformer 语言模型中的注意力结构

本文研究了基于注意力机制的 Transformer 模型在自然语言处理中的应用，通过对 GPT-2 模型的注意力结构的可视化和大规模语料库的分析，发现模型在不同层次区分不同词性并在中间层次最强烈地关注依赖关系，最深层次关注最远程的联系，并抽取了展现特定关注头目标的范例句子。

Jun, 2019

LUKE: 深度上下文化实体表示与实体感知自注意力

本文提出了一种基于双向 transformer 的新预训练上下文表示方法来处理实体，通过在维基百科中的大型实体注释语料库上预测随机屏蔽的单词和实体，训练了一个新的与实体相关的自注意机制，实现了在实体相关任务中的良好表现。

Oct, 2020

基于预训练句子嵌入的长文档分类的注意力机制

通过利用预训练的句子 transformers 对语义有意义的嵌入进行组合，结合文档长度线性扩展的小的注意力层，我们得到了与当前最先进模型竞争力的结果，特别是在冻结底层 transformers 的情况下，有助于避免完全微调。通过两个额外的实验进一步评估所研究的架构在比较简单的基线上的相关性。

Jul, 2023

语言模型的时间注意力

该研究提出了一种时间感知的自注意力机制 —— 时间注意力，用于任何基于变形器模型的预训练语言模型中，以捕捉上下文中的时间信息，并应用于语义变化检测任务，在三个不同语言的数据集上取得最先进的结果。

Feb, 2022

Transformer 模型是否显示出与任务特定的人类凝视类似的注意力模式？

通过比较两个任务特定的阅读数据集，研究表明，大规模预训练自注意力模型对于人类注意力的预测能力依赖于罕见语境的句法性质，而任务特定的微调不增加与人类阅读的相关性，并且通过输入减少实验给出了互补信息，表明低熵的注意向量更为可靠。

Apr, 2022

基于依赖感知自注意力机制的机器翻译增强

本文研究了将句法知识纳入 Transformer 模型的不同方法，并提出一种新的、无需参数的依赖感知自注意机制，能够提高其翻译质量，特别是在长句子和低资源情况下。作者在 WMT 英德、英土和 WAT 英日翻译任务中展示了每种方法的有效性。

Sep, 2019

使用 Transformer 引导自监督学习的注意力机制

该文提出了一种利用双向 Transformer 实现高效自监督学习的简单而有效的技术，该方法利用辅助损失函数引导注意力头符合自注意力特征，并可以适用于不同的预训练目标，实验证明该方法相对于基线模型更快收敛同时在下游任务中性能更好，在低资源环境中取得了业界领先结果。

Oct, 2020

自注意力能否强大到学会代码语法和语义？

本文研究了 CodeBERT 模型基于 AST 和静态分析，通过自我关注机制和 Masked Language Modelling（MLM）在令牌级别上学习代码语法和语义的能力，展示了其中自我关注机制在了解代码语法和语义方面的关键作用，并提出了一组任务来分析 CodeBERT 模型，同时，文章还提出了一种替代方法来预训练模型，充分利用当前的预训练策略，即 MLM，以学习代码语法和语义。

Dec, 2022

句法距离引导的局部自注意力机制

本文提出了一种语法指导的本地化自注意力 Transformer，该方法允许直接从外部成分句法分析器中加入语法结构，禁止注意机制通过加权距离较远但语法正确的令牌而不是接近的令牌。实验结果显示，我们的模型可以在从小到大不同规模的机器翻译数据集上持续地提高翻译性能。

Oct, 2022