Sep, 2023

语音拼贴:通过拼贴单语语料库的混合交替生成语音

TL;DR本文介绍了一种通过拼接音频片段从单语语料库中合成 Code-Switching 数据的 Speech Collage 方法,并通过重叠添加方法提高音频生成的平滑度。我们研究了生成的数据对语音识别的影响,在使用领域内 Code-Switching 文本和合成的 Code-Switching 文本的零样本方法下,实证结果显示相对于领域内和零样本场景,混合错误率和词错误率分别降低了 34.4%和 16.2%。最后,我们证明了 Code-Switching 增强了模型的 Code-Switching 倾向并减少了其单语偏见。