ICMLMay, 2022

有向无环 Transformer 模型用于非自回归机器翻译

TL;DR通过将隐藏状态表示成有向无环图,在非自回归的情况下同时捕获多个翻译,并促进快速预测,DA-Transformer 在 WMT 基准测试的原始训练数据上实验表明,DA-Transformer 比以前的 NATs(非自回归 transform)平均优于 3 BLEU,是第一个在不依赖于知识蒸馏的情况下实现与自回归 Transformer 竞争性结果的 NAT 模型。