利用语法感知的局部注意力提升 BERT 性能

ACLDec, 2020

利用语法感知的局部注意力提升 BERT 性能

Improving BERT with Syntax-aware Local Attention

Zhongli Li, Qingyu Zhou, Chao Li, Ke Xu, Yunbo Cao

TL;DR本文提出一种基于句法结构的局部语义注意力机制，将其与 BERT 等预训练语言模型相结合，提高对句子中句法相关词的关注度，在单句分类和序列标注等任务中实现了一致性增益。

Abstract

Pre-trained transformer-based neural language models, such as bert, have achieved remarkable results on varieties of NLP tasks. Recent works have shown that →

transformer-based neural language models bert attention-based models syntax-aware local attention syntactically relevant words

发现论文，激发创造

语法增强的预训练模型

文章提出了一种新的基于 Transformer 模型的句法感知注意力层以及预训练任务，该模型可以从句法结构中获取信息来提高预训练模型在关系分类、实体类型标注和问答等任务中的表现。实验结果表明，该模型取得了当前最好的表现效果。

Dec, 2020

句法距离引导的局部自注意力机制

本文提出了一种语法指导的本地化自注意力 Transformer，该方法允许直接从外部成分句法分析器中加入语法结构，禁止注意机制通过加权距离较远但语法正确的令牌而不是接近的令牌。实验结果显示，我们的模型可以在从小到大不同规模的机器翻译数据集上持续地提高翻译性能。

Oct, 2022

用于机器翻译和自然语言理解的语法注入 Transformer 和 BERT 模型

本论文研究了通过将句法信息与深度学习模型相结合，提高自然语言处理任务的性能表现，对多特征的语法 - Transformer 进行了测试，发现在完整数据集和部分数据集中，BLEU 得分都有明显提升，同时，在 GLUE 基准测试中，语法嵌入的 BERT 微调在几个下游任务中表现优于基线。

Nov, 2019

关注实体以获得更好的文本理解

在自然语言处理中，通过将共指信息作为辅助监督注入到目前现有的预训练模型中，能够提升模型在需要进行复杂和长距离推理的任务中的表现，从而超过目前最大的 GPT-2 模型，同时仅含有一小部分的参数。

Nov, 2019

注意力可以反映句法结构 (如果你允许)

本研究通过对 18 种语言进行多语言 BERT 的解码实验，以测试依存句法是否反映在注意力模式中的普适性，并归纳出单一注意力头可以以上线准确率解码全树。尝试通过对 mBERT 进行监督解析目标的微调，结果表明注意力模式可以代表语言结构。

Jan, 2021

BERT 模型看什么？BERT Attention 机制分析

本文通过分析 BERT 的注意力机制及其输出结果，提出了新的方法并应用于其内部结构的探究，证明 Bert 的 attention heads 明显与语言的语法和指代有关，其中某些 attention heads 可以高精度地表示动词的直接宾语、名词的限定词和介词的宾语。

Jun, 2019

Syntax-BERT：在预训练变形金刚模型中加入句法树以提升性能

本文提出了一种名为 Syntax-BERT 的新型框架，它可以有效地并高效地将句法树结构融入到基于 Transformer 的任何预训练模型中，并在多个先前的预训练模型上取得了稳定的性能提升，进一步证明了句法信息在 NLP 任务中的重要性。

Mar, 2021

基于语法的自然语言推理注意力模型

本文探讨了在自然语言推理的背景下，将注意力机制应用到句法树这种更加丰富的拓扑结构上，不仅可以利用底层的句法信息，还可以使注意力更具可解释性。结果表明，该方法非常有效，并进行了广泛的质量分析，提取出了为什么以及如何工作的见解和直觉。

Jul, 2016

自注意力能否强大到学会代码语法和语义？

本文研究了 CodeBERT 模型基于 AST 和静态分析，通过自我关注机制和 Masked Language Modelling（MLM）在令牌级别上学习代码语法和语义的能力，展示了其中自我关注机制在了解代码语法和语义方面的关键作用，并提出了一组任务来分析 CodeBERT 模型，同时，文章还提出了一种替代方法来预训练模型，充分利用当前的预训练策略，即 MLM，以学习代码语法和语义。

Dec, 2022

神经机器翻译的语法导向注意力

本文提出了一种在一个新的句法距离约束下扩展局部注意力的神经机器翻译模型，同时进一步提出了一个双重上下文神经机器翻译体系结构，以提高翻译性能。实验证明，该方法从源表示中实现了显著和重大的改进。

Nov, 2017