SG-Net:语法引导变形金刚模型用于语言表示学习
本文提出使用句法来指导文本建模,通过将显式的句法约束融入到注意机制中,设计出了一种句法导向的自注意力网络 (SG-Net),并将其应用于预训练语言模型 BERT 中,实验结果表明,SG-Net 设计相对于强基线模型在 SQuAD 2.0 和 RACE 基准测试中都有显著的性能提升。
Aug, 2019
通过图注意力模型与 BERT 共同表示源语言的句法依赖特征,以丰富源语言的表示并指导目标语言生成,提出了用 SGB 在机器翻译中获取句法知识。这个模型的实验显示,在不损失 BLEU 得分的情况下,可以提高翻译质量,同时探索了句子长度对此的影响以及 GAT 识别的依赖关系。
May, 2023
本文介绍了一种知识引导的结构注意力网络 (K-SAN) 模型,其是循环神经网络 (RNN) 的推广,此模型可以自动识别关键的子结构并加以利用,以提高对于自然语言理解的性能,表现优于基于神经网络的现有框架。
Sep, 2016
本研究中,我们提出了一种名为 HySAN 的新型自注意力机制,它可以通过针对不同类型的自注意力网络设计特定的掩码来提取各种语义,并引入挤压门来融合不同类型的自注意力网络,在三个机器翻译任务上实现了优于 Transform 的显著基线,并实现了超越最先进的 NMT 系统的卓越结果。
Nov, 2018
本论文研究了通过将句法信息与深度学习模型相结合,提高自然语言处理任务的性能表现,对多特征的语法 - Transformer 进行了测试,发现在完整数据集和部分数据集中,BLEU 得分都有明显提升,同时,在 GLUE 基准测试中,语法嵌入的 BERT 微调在几个下游任务中表现优于基线。
Nov, 2019
基于 Transformer 的模型在软件工程中的源代码建模任务中展示了相当大的潜力,但其仅依赖于自动自注意权重学习机制的限制。我们引入了 SyntaGuid,一种新颖的方法,利用细调的语言模型中注意权重倾向于特定源代码语法标记和抽象语法树元素的观察,以改进模型在各种软件工程任务中的性能。我们评估了 SyntaGuid 的有效性,并证明其在整体性能上优于现有的最先进模型,而无需额外的数据。实验结果显示,SyntaGuid 可以提高整体性能最多 3.25%,并纠正最多 28.3% 的错误预测。我们的工作是第一次尝试在细调过程中引导基于 Transformer 的模型注意关键的源代码标记,突显了提升软件工程中基于 Transformer 的模型的潜力。
Feb, 2024
本文提出了一种语法指导的本地化自注意力 Transformer,该方法允许直接从外部成分句法分析器中加入语法结构,禁止注意机制通过加权距离较远但语法正确的令牌而不是接近的令牌。实验结果显示,我们的模型可以在从小到大不同规模的机器翻译数据集上持续地提高翻译性能。
Oct, 2022
本文提出了一个名为 SG-Trans 的新颖方法,通过将本地符号信息和全局句法结构注入到 Transformer 的自注意模块作为归纳偏置,并设计能够分布在 Transformer 的较低层和高层的注意头中,进一步捕捉代码的层次特征,将其有效地集成到 Transformer 来实现深度学习自动生成代码摘要,经过广泛评估,SG-Trans 相对于最佳基准测试结果在两个基准数据集上分别提高了 1.4%和 2.0%的 METEOR 得分,这是一种广泛用于测量生成质量的指标。
Apr, 2021
通过将 LSTM 并入已有的 multi-headed dot product attention 机制中作为 gated component self-dependency units,使信息流动更加顺畅,从而提高了在序列学习任务中的性能。同时还成功阐述了其在 context-based Transformer 模型中的应用,即 SDU gates 可以加速优化过程。
Apr, 2020
这篇研究论文介绍了一种简单有效的方法来将句法结构融入到神经注意力编码解码模型中,以实现机器翻译。文中使用了预测的源句子句法依赖树,用于生成敏感于句法周边的单词表示,以达到最佳效果。研究的实验结果表明,在英德翻译和英捷翻译方面的所有设置中,与其不考虑语法结构的版本相比,该方法均有显著的改善。
Apr, 2017