有向无环转换器的维特比解码在非自回归机器翻译中的应用
通过将隐藏状态表示成有向无环图,在非自回归的情况下同时捕获多个翻译,并促进快速预测,DA-Transformer 在 WMT 基准测试的原始训练数据上实验表明,DA-Transformer 比以前的 NATs(非自回归 transform)平均优于 3 BLEU,是第一个在不依赖于知识蒸馏的情况下实现与自回归 Transformer 竞争性结果的 NAT 模型。
May, 2022
Directed Acyclic Transformer(有向无环 Transformer)是一种快速的非自回归(NAR)模型,它在神经机器翻译中表现良好。然而,在应用于一般的自然语言生成(NLG)任务时存在两个问题:频繁的词汇外(OOV)错误和无法准确生成实体名称。我们引入了 Control-DAG,一种用于我们的 Directed Acyclic T5(DA-T5)模型的约束解码算法,它提供了词汇、词汇表和长度控制。我们展示了 Control-DAG 在 Schema Guided Dialogue 和 DART 数据集上显著提升了 DA-T5 的表现,为任务导向对话和数据到文本的自然语言生成领域建立了强大的非自回归结果。
Apr, 2024
本文提出使用雅可比和高斯 - 塞德尔迭代方法对机器翻译的标准贪心自回归解码进行并行重构,以解决 transformers 对机器翻译的效率问题,实现了速度提高,而翻译质量保持。三种并行解码算法被提出并在不同语言和模型上进行了测试,速度提升最多可达 38%,在并行资源上实现的速度几乎达到 2 倍。同时,为了更好地理解模型的条件依赖关系和检查解码过程,提出了解码依赖图可视化器(DDGviz)
May, 2023
直接的语音对语音翻译(S2ST)模型 DASpeech 能够以极快的解码速度实现高质量的翻译,使用两步骤生成过程的双通路架构,其中语言解码器首先生成目标文本,然后声学解码器根据语言解码器的隐藏状态生成目标语音。
Oct, 2023
提出一种 Pre-trained Directed Acyclic Transformer(PreDAT)和新颖的预训练任务来促进 NAR 生成中的预测一致性。在五个文本生成任务上的实验表明,PreDAT 明显优于现有的预先训练的 NAR 模型(平均得分 + 4.2),甚至在基于 n-gram 的指标上比预先训练的自回归基线效果更好,并且吞吐量提高了 17 倍。
Apr, 2023
本文提出了一种新的方法,使用模糊对齐分数来训练基于有向无环图结构的非自回归翻译模型,从而解决多模态问题,在主要 WMT 基准数据上取得了显著的翻译性能提升和置信度提高,为非自回归翻译模型的训练提供了一个新的方向。
Mar, 2023
提出基于 CTC 的非自回归结构,可用于神经机器翻译,相比其他的非自回归结构,本文所提出的模型可以进行端到端的训练,并在 WMT 英罗马尼亚和英德数据集上实现了可比的翻译质量及较大的速度提升。
Nov, 2018
本研究提出了 DSLP 模型,可以通过使用深度监督和层次预测训练非自回归 Transformer 以进行高效且高性能的机器翻译,实验结果表明,与基础模型相比,我们的方法始终改善了 BLEU 得分,尤其在推理效率方面提高了 14.8 倍。
Oct, 2021
LaNMT 是一种基于最近的改进方法的潜变量非自回归模型,具有连续潜变量和确定性推断过程,在推断期间,翻译的长度自动适应,在 ASPEC Ja-En 数据集上的解码速度比自回归算法快 8.6 倍,在 WMT'14 En-De 数据集上,解码速度比自回归基线快 12.5 倍,且独立的并行解码和教师模型再评分可以将性能差距进一步降至 1.0 BLEU point。
Aug, 2019
本篇论文研究了如何在 Transformer architecture 中注入图形结构偏差以更好地处理基于有向无环图的数据,包括构思了一个有效的注意机制来捕捉 DAG 的结构并提出了一种部分顺序的位置编码方法。作者在实验中证明了这个框架能够改善各种基线 transformers 的效果并使图 transformers 竞争力更强。
Oct, 2022