Sep, 2021

并联自回归重评分的非自回归端到端语音翻译

TL;DR本文提出了一种基于非自回归模型 (NAR) 的高效端到端语音翻译 (E2E-ST) 系统 ——Orthros,使用条件掩蔽语言模型 (CMLM) 和连接主义时间分类 (CTC) 模型作为 NAR 解码器,并采用两种训练方法来增强 CMLM 解码器。实验表明,在三个基准数据集及六个语言方向上,Orthros-CTC 以 Conformer 编码器为基础的模型在保证翻译质量的前提下,将解码速度提高了 3.63 倍。