Dec, 2021

真实数据上的无字幕语音翻译

TL;DR我们提出了一种无需文本数据即可构建的无文本语音到语音翻译系统,采用了自监督单元级别的语音标准化技术来优化多说话者语音的模型,仅使用了10分钟的数据训练该技术,可在VoxPopuli S2ST数据集上实现平均3.2 BLEU分数的增益,是首次建立了可用于多种语言对的无文本S2ST技术。