May, 2023

为增强 ASR 训练而选择文本转语音数据

TL;DR本文提出了一种方法,通过训练神经网络来选择合适的合成语音样本,使其作为自动语音识别模型的辅助训练数据,这在训练中包括有实际的标注数据和合成的数据。在实验中,我们发现将与真实语音具有较大差异性的合成样本(由于词汇差异等原因)纳入到训练中对于提高语音识别性能至关重要,同时,我们的方法可以显著减小文本 — 语音转换(TTS)数据的大小。