SG-Net：语法引导变形金刚模型用于语言表示学习

AAAIDec, 2020

SG-Net：语法引导变形金刚模型用于语言表示学习

SG-Net: Syntax Guided Transformer for Language Representation

Zhuosheng Zhang, Yuwei Wu, Junru Zhou, Sufeng Duan, Hai Zhao...

TL;DR本研究提出了一种基于句法导向机制的注意力机制，设计了一个语法指导的 self-attention 网络，用于自然语言处理等任务中，取得了较好的性能。

Abstract

Understanding human language is one of the key themes of artificial intelligence. For language representation, the capacity of effectively modeling the linguistic knowledge from the detail-riddled and lengthy texts and getting rid of the noises is essential to improve its performance.

artificial intelligence language representation attention mechanisms syntax-guided network transformer encoder

发现论文，激发创造

SG-Net：基于句法引导的机器阅读理解

本文提出使用句法来指导文本建模，通过将显式的句法约束融入到注意机制中，设计出了一种句法导向的自注意力网络 (SG-Net)，并将其应用于预训练语言模型 BERT 中，实验结果表明，SG-Net 设计相对于强基线模型在 SQuAD 2.0 和 RACE 基准测试中都有显著的性能提升。

Aug, 2019

利用 BERT 和图注意力实现机器翻译的句法知识

通过图注意力模型与 BERT 共同表示源语言的句法依赖特征，以丰富源语言的表示并指导目标语言生成，提出了用 SGB 在机器翻译中获取句法知识。这个模型的实验显示，在不损失 BLEU 得分的情况下，可以提高翻译质量，同时探索了句子长度对此的影响以及 GAT 识别的依赖关系。

May, 2023

知识为师：基于知识引导的结构化注意力网络

本文介绍了一种知识引导的结构注意力网络 (K-SAN) 模型，其是循环神经网络 (RNN) 的推广，此模型可以自动识别关键的子结构并加以利用，以提高对于自然语言理解的性能，表现优于基于神经网络的现有框架。

Sep, 2016

混合自注意力网络用于机器翻译

本研究中，我们提出了一种名为 HySAN 的新型自注意力机制，它可以通过针对不同类型的自注意力网络设计特定的掩码来提取各种语义，并引入挤压门来融合不同类型的自注意力网络，在三个机器翻译任务上实现了优于 Transform 的显著基线，并实现了超越最先进的 NMT 系统的卓越结果。

Nov, 2018

用于机器翻译和自然语言理解的语法注入 Transformer 和 BERT 模型

本论文研究了通过将句法信息与深度学习模型相结合，提高自然语言处理任务的性能表现，对多特征的语法 - Transformer 进行了测试，发现在完整数据集和部分数据集中，BLEU 得分都有明显提升，同时，在 GLUE 基准测试中，语法嵌入的 BERT 微调在几个下游任务中表现优于基线。

Nov, 2019

超越自学习的注意力：使用注意力指导减轻基于 Transformer 的模型中的注意偏差

基于 Transformer 的模型在软件工程中的源代码建模任务中展示了相当大的潜力，但其仅依赖于自动自注意权重学习机制的限制。我们引入了 SyntaGuid，一种新颖的方法，利用细调的语言模型中注意权重倾向于特定源代码语法标记和抽象语法树元素的观察，以改进模型在各种软件工程任务中的性能。我们评估了 SyntaGuid 的有效性，并证明其在整体性能上优于现有的最先进模型，而无需额外的数据。实验结果显示，SyntaGuid 可以提高整体性能最多 3.25%，并纠正最多 28.3% 的错误预测。我们的工作是第一次尝试在细调过程中引导基于 Transformer 的模型注意关键的源代码标记，突显了提升软件工程中基于 Transformer 的模型的潜力。

Feb, 2024

句法距离引导的局部自注意力机制

本文提出了一种语法指导的本地化自注意力 Transformer，该方法允许直接从外部成分句法分析器中加入语法结构，禁止注意机制通过加权距离较远但语法正确的令牌而不是接近的令牌。实验结果显示，我们的模型可以在从小到大不同规模的机器翻译数据集上持续地提高翻译性能。

Oct, 2022

代码结构指导的源代码摘要变压器

本文提出了一个名为 SG-Trans 的新颖方法，通过将本地符号信息和全局句法结构注入到 Transformer 的自注意模块作为归纳偏置，并设计能够分布在 Transformer 的较低层和高层的注意头中，进一步捕捉代码的层次特征，将其有效地集成到 Transformer 来实现深度学习自动生成代码摘要，经过广泛评估，SG-Trans 相对于最佳基准测试结果在两个基准数据集上分别提高了 1.4％和 2.0％的 METEOR 得分，这是一种广泛用于测量生成质量的指标。

Apr, 2021

高速公路变压器：自门控增强自注意网络

通过将 LSTM 并入已有的 multi-headed dot product attention 机制中作为 gated component self-dependency units，使信息流动更加顺畅，从而提高了在序列学习任务中的性能。同时还成功阐述了其在 context-based Transformer 模型中的应用，即 SDU gates 可以加速优化过程。

Apr, 2020

用于句法感知神经机器翻译的图卷积编码器

这篇研究论文介绍了一种简单有效的方法来将句法结构融入到神经注意力编码解码模型中，以实现机器翻译。文中使用了预测的源句子句法依赖树，用于生成敏感于句法周边的单词表示，以达到最佳效果。研究的实验结果表明，在英德翻译和英捷翻译方面的所有设置中，与其不考虑语法结构的版本相比，该方法均有显著的改善。

Apr, 2017