AAAIDec, 2020

基于未来引导的增量变换器进行同声翻译

TL;DR提出了增量 Transformer 结合平均嵌入层(AEL)加快计算速度、传统 Transformer 作为增量 Transformer 的 teacher 通过知识蒸馏在模型中加入未来信息进行未来导向训练的方法,在汉英和德英同时翻译任务中与 wait-k 策略对比实验证明,该方法能够有效提高训练速度约 28 倍,并在模型中隐式地嵌入一些预测能力,获得更好的翻译质量。