EMNLPAug, 2018
使用透明化注意力训练更深层的神经机器翻译模型
Training Deeper Neural Machine Translation Models with Transparent Attention
Ankur Bapna, Mia Xu Chen, Orhan Firat, Yuan Cao, Yonghui Wu
TL;DR本篇研究旨在通过对注意机制做出简单修改以训练深度 NMT 模型,我们尝试通过训练深度 Transformer 和 Bi-RNN 编码器来提高机器翻译的质量,结果在 WMT'14 英德和 WMT'15 捷英任务上均取得了 0.7-1.1 的 BLEU 提升。