Oct, 2022

简单有效的无监督语音翻译

TL;DR本文利用无监督语音识别、机器翻译与语音合成技术,探讨实现无标注数据建立语音翻译系统的方法,通过管道方法或生成伪标签,对端到端语音翻译模型进行训练。同时,提出一种无监督域自适应方法,能够提供一定的性能提升。实验结果表明,本文提出的无监督语音翻译方法,在Libri-Trans基准测试的BLEU分数上超过以前报告的无监督效果的3.2个点,在CoVoST2数据集上,本文的最佳系统相对于最佳监督学习的端到端模型(无预训练),在五个语种(X-En)上平均提高5.0个BLEU分数。在MuST-C和CVSS基准测试上,本文也取得了有竞争力的结果。