EMNLPOct, 2023

DiffS2UT:一种保持语义的无文本直接语音翻译扩散模型

TL;DR通过在连续语音表示空间中应用向前扩散,同时在离散语音单位空间中应用向后扩散,我们提出了一种新的扩散模型,以此在扩散过程中保留了连续语音表示空间的语义结构,并整合了连续和离散扩散模型。在无文本直接语音翻译任务上进行了大量实验,该方法与计算密集型的自回归基线方法(平均 500 步骤)相比,具有显著较少的解码步骤(50 步骤),并获得了可比较的结果。