Apr, 2023

定向无环 Transformer 预训练用于高质量的非自回归文本生成

TL;DR提出一种 Pre-trained Directed Acyclic Transformer(PreDAT)和新颖的预训练任务来促进 NAR 生成中的预测一致性。在五个文本生成任务上的实验表明,PreDAT 明显优于现有的预先训练的 NAR 模型(平均得分 + 4.2),甚至在基于 n-gram 的指标上比预先训练的自回归基线效果更好,并且吞吐量提高了 17 倍。