Sep, 2023

使用声学单元的直接文本转语音翻译系统

TL;DR本研究提出了一种使用离散声学单元的直接文本到语音翻译系统,该系统能够将不同源语言的文本作为输入,生成目标语言的语音,无需该语言的文本转录。通过使用语音编码器与聚类算法相结合来提取声学单元,利用先前工作中在直接语音到语音翻译系统中成功运用的声学单元,构建了该框架。通过训练编码器-解码器架构来预测声学单元,然后使用声码器从单元生成语音。我们在新的CVSS语料库上测试了直接文本到语音翻译的方法,使用了两个不同的初始模型(mBART)。所提出的系统在大多数评估的语言对上表现出竞争性能。此外,结果显示,使用预先训练了更多语言的模型初始化我们提出的架构,能够取得显著的改进。