ACLJun, 2024
基于 CTC 的非自回归式无文字语音翻译
CTC-based Non-autoregressive Textless Speech-to-Speech Translation
Qingkai Fang, Zhengrui Ma, Yan Zhou, Min Zhang, Yang Feng
TL;DR通过结合预训练、知识蒸馏和先进的非自回归训练技术,如 glancing training 和 non-monotonic latent alignments,基于 CTC 的非自回归模型在直接语音到语音翻译中实现了与自回归模型相当的翻译质量,并提升了 26.81 倍的解码速度。