Oct, 2019

在 Transformer NMT 中推广源语法知识是不必要的

TL;DR本研究旨在通过使用 Transformer 模型和较大的语料库来提高源端句法知识的表征,并利用多任务学习进行数据操纵或使用专用模型组件。提供的结果表明,采用线性树而不是真实依赖得到的增益不是来自于语言知识的增加,而是由于在自注意矩阵上引起的某种简单的正则化效应。