Oct, 2023

DASpeech:用于快速高质量语音到语音翻译的有向无环 Transformer

TL;DR直接的语音对语音翻译(S2ST)模型 DASpeech 能够以极快的解码速度实现高质量的翻译,使用两步骤生成过程的双通路架构,其中语言解码器首先生成目标文本,然后声学解码器根据语言解码器的隐藏状态生成目标语音。