端到端混合语音识别的数据增强
本文提出了一种基于文本的语音编辑模型的数据增强方法,以改善端到端自动语音识别模型在 code-switching 和命名实体识别方面的效果。实验结果表明,相对于音频拼接和神经 TTS 数据增强系统,本文提出的方法显著地提高了识别水平。
Jun, 2023
本文基于随机词汇替换和等价约束,利用对齐翻译对生成随机合法的混合语言内容进行零样本学习,以解决跨语言语音识别中数据稀缺性、语法结构复杂性和领域匹配问题,实验结果显示,所提出的方法在两个生态有效的混合语言测试集上相对降低了 65.5% 的语言模型困惑度和 7.7% 的 ASR WER,而采用等价约束的人类评估表明,80% 以上的内容质量足够。
Jan, 2022
采用数据增强和 TTS 技术,对 ASR 的训练数据进行扩充,并通过集成语言模型,在 LibriSpeech 数据上建立 end-to-end 模型,相对于半监督技术的效果更好。
May, 2020
本文提出了改进自动语音识别系统的语音和语言模型技术,用于混合语言 Frision 和 Dutch 广播语音的语音识别,通过训练包括单语及混合码的语音数据集,改善了模型效果并提高了混合语音自动识别性能。
Jul, 2018
本文研究跨语种多人语音合成以及跨语种语音转换,并将其应用于自动语音识别(ASR)系统的数据增强。经过大量实验,我们证明了通过使用仅一个目标语言说话者进行模型训练,可以使用语音合成和语音转换来提高目标语言上的 ASR 系统。我们成功地缩小了 ASR 模型训练时使用合成的语音与使用人类语音之间的差距,并通过我们的数据增强方法,在目标语言中仅使用一个真实说话者就能获得有希望的 ASR 训练结果。
Mar, 2022
研究数据扩增技术,通过将原始数据例子进行连接来建立新的训练实例,以改善用于原始数据优化的 Transformer 和 Conformer 模型,增加了对另外四种非英语语言识别方面的准确性。并证明其也适用于语音翻译任务。
Oct, 2022
本研究探讨了如何针对混杂语音优化基于神经传递器的双语自动语音识别系统,发现半监督训练和合成的混合开关数据可以改善这一系统的性能。同时,我们分析了每个神经传递器编码器对混合开关性能的影响,并在 ASCEND 数据集上评估了我们的英语 / 普通话系统,其混合错误率为 25%,较文献节省 2.1%,同时保持好的单语测试集准确性。
Oct, 2022
在埃及阿拉伯语 - 英语混合代码生成中,我们比较了词汇替换、语言理论和回译三种流行的增强方法,通过人工评估评估了这些方法在机器翻译上的效果和增强质量。结果显示,基于回译和基于代码交替预测的词汇替换方法在两个任务中表现最佳,而在缺少代码交替并行数据的情况下,语言理论和随机词汇替换方法实现了类似的结果。
Oct, 2023
本文介绍了一种利用自然语言生成的人工语音并结合于现有的自动语音识别系统中的方法,并证明仅需使用语音文本数据就可对 ASR 系统进行增强,相对于数据扩充的基线模型,本方法在 LibriSpeech-100h 上获得了高达 33% 的错误率降低并且相对于最新 ASR 基线模型在 LibriSpeech-960h 上也获得了高达 5% 的未识别词率降低。
Dec, 2019
本文介绍了一种通过拼接音频片段从单语语料库中合成 Code-Switching 数据的 Speech Collage 方法,并通过重叠添加方法提高音频生成的平滑度。我们研究了生成的数据对语音识别的影响,在使用领域内 Code-Switching 文本和合成的 Code-Switching 文本的零样本方法下,实证结果显示相对于领域内和零样本场景,混合错误率和词错误率分别降低了 34.4%和 16.2%。最后,我们证明了 Code-Switching 增强了模型的 Code-Switching 倾向并减少了其单语偏见。
Sep, 2023