ACLJun, 2024

一种非自回归生成框架用于端到端同步任意语音翻译

TL;DR我们提出了一种新颖的非自回归生成框架用于同时语音翻译 (NAST-S2X),它将语音到文本和语音到语音任务整合到统一的端到端框架中。实验结果表明,NAST-S2X 在语音到文本和语音到语音任务中优于现有模型,在不到 3 秒的延迟内实现了高质量的同时口译,并在离线生成中提供了 28 倍的解码加速。