利用语法感知的局部注意力提升 BERT 性能
文章提出了一种新的基于 Transformer 模型的句法感知注意力层以及预训练任务,该模型可以从句法结构中获取信息来提高预训练模型在关系分类、实体类型标注和问答等任务中的表现。实验结果表明,该模型取得了当前最好的表现效果。
Dec, 2020
本文提出了一种语法指导的本地化自注意力 Transformer,该方法允许直接从外部成分句法分析器中加入语法结构,禁止注意机制通过加权距离较远但语法正确的令牌而不是接近的令牌。实验结果显示,我们的模型可以在从小到大不同规模的机器翻译数据集上持续地提高翻译性能。
Oct, 2022
本论文研究了通过将句法信息与深度学习模型相结合,提高自然语言处理任务的性能表现,对多特征的语法 - Transformer 进行了测试,发现在完整数据集和部分数据集中,BLEU 得分都有明显提升,同时,在 GLUE 基准测试中,语法嵌入的 BERT 微调在几个下游任务中表现优于基线。
Nov, 2019
在自然语言处理中,通过将共指信息作为辅助监督注入到目前现有的预训练模型中,能够提升模型在需要进行复杂和长距离推理的任务中的表现,从而超过目前最大的 GPT-2 模型,同时仅含有一小部分的参数。
Nov, 2019
本研究通过对 18 种语言进行多语言 BERT 的解码实验,以测试依存句法是否反映在注意力模式中的普适性,并归纳出单一注意力头可以以上线准确率解码全树。尝试通过对 mBERT 进行监督解析目标的微调,结果表明注意力模式可以代表语言结构。
Jan, 2021
本文通过分析 BERT 的注意力机制及其输出结果,提出了新的方法并应用于其内部结构的探究,证明 Bert 的 attention heads 明显与语言的语法和指代有关,其中某些 attention heads 可以高精度地表示动词的直接宾语、名词的限定词和介词的宾语。
Jun, 2019
本文提出了一种名为 Syntax-BERT 的新型框架,它可以有效地并高效地将句法树结构融入到基于 Transformer 的任何预训练模型中,并在多个先前的预训练模型上取得了稳定的性能提升,进一步证明了句法信息在 NLP 任务中的重要性。
Mar, 2021
本文探讨了在自然语言推理的背景下,将注意力机制应用到句法树这种更加丰富的拓扑结构上,不仅可以利用底层的句法信息,还可以使注意力更具可解释性。结果表明,该方法非常有效,并进行了广泛的质量分析,提取出了为什么以及如何工作的见解和直觉。
Jul, 2016
本文研究了 CodeBERT 模型基于 AST 和静态分析,通过自我关注机制和 Masked Language Modelling(MLM)在令牌级别上学习代码语法和语义的能力,展示了其中自我关注机制在了解代码语法和语义方面的关键作用,并提出了一组任务来分析 CodeBERT 模型,同时,文章还提出了一种替代方法来预训练模型,充分利用当前的预训练策略,即 MLM,以学习代码语法和语义。
Dec, 2022
本文提出了一种在一个新的句法距离约束下扩展局部注意力的神经机器翻译模型,同时进一步提出了一个双重上下文神经机器翻译体系结构,以提高翻译性能。实验证明,该方法从源表示中实现了显著和重大的改进。
Nov, 2017