Apr, 2022

GigaST:一份拥有 10,000 小时的伪语音翻译语料库

TL;DR本文介绍 GigaST 数据集,它是一个大规模的伪语音转换语料库,通过翻译英文 ASR 语料库 GigaSpeech 到德语和中文等加入大量的机器翻译的数据用于训练,最终的 ST 模型在 MuST-C 英语 - 德语基准测试集中获得了最新的最好成果。