Dec, 2019

从预训练模型获取知识到神经机器翻译

TL;DR本文提出了一种 APT 框架,在神经机器翻译中利用预训练模型的语言知识,该框架包括两个模块:1)动态融合机制,将从通用知识中适应的任务特定特征融合到 NMT 网络中;2)知识蒸馏范式,在 NMT 训练过程中连续学习语言知识。实验结果表明,我们的模型优于强基线和微调对应模型。