端到端混合语音识别的数据增强

Nov, 2020

Data Augmentation for End-to-end Code-switching Speech Recognition

Chenpeng Du, Hao Li, Yizhou Lu, Lan Wang, Yanmin Qian

TL;DR本文提出了三种针对语种转换数据的增强方法，即音频接合、TTS 和单词转换或插入生成语料，并展示了这些方法对基于端到端自动语音识别系统（ASR）的语种转换系统的性能提升，这些方法可结合近期热门技术 SpecAugment 使用，相对于没有数据增强的系统，WER 显著降低了 24.0％，相对于只有 SpecAugment 的系统还有 13.0％的收益。

Abstract

Training a code-switching end-to-end automatic speech recognition (ASR) model normally requires a large amount of data, while code-switching

code-switching automatic speech recognition data augmentation mandarin-english specaugment

发现论文，激发创造

基于语音编辑的数据增强技术，提升语音识别中的语码切换和命名实体识别准确度

本文提出了一种基于文本的语音编辑模型的数据增强方法，以改善端到端自动语音识别模型在 code-switching 和命名实体识别方面的效果。实验结果表明，相对于音频拼接和神经 TTS 数据增强系统，本文提出的方法显著地提高了识别水平。

Jun, 2023

阿拉伯语 - 英语代码切换语音识别的文本数据增强

本文基于随机词汇替换和等价约束，利用对齐翻译对生成随机合法的混合语言内容进行零样本学习，以解决跨语言语音识别中数据稀缺性、语法结构复杂性和领域匹配问题，实验结果显示，所提出的方法在两个生态有效的混合语言测试集上相对降低了 65.5% 的语言模型困惑度和 7.7% 的 ASR WER，而采用等价约束的人类评估表明，80% 以上的内容质量足够。

Jan, 2022

无需更多数据：通过文本到语音数据增强来提高端到端语音识别

采用数据增强和 TTS 技术，对 ASR 的训练数据进行扩充，并通过集成语言模型，在 LibriSpeech 数据上建立 end-to-end 模型，相对于半监督技术的效果更好。

May, 2020

提升混合语言语音识别的声学和文本数据增强

本文提出了改进自动语音识别系统的语音和语言模型技术，用于混合语言 Frision 和 Dutch 广播语音的语音识别，通过训练包括单语及混合码的语音数据集，改善了模型效果并提高了混合语音自动识别性能。

Jul, 2018

跨语言多说话人 TTS 和跨语言语音转换进行 ASR 数据增强

本文研究跨语种多人语音合成以及跨语种语音转换，并将其应用于自动语音识别（ASR）系统的数据增强。经过大量实验，我们证明了通过使用仅一个目标语言说话者进行模型训练，可以使用语音合成和语音转换来提高目标语言上的 ASR 系统。我们成功地缩小了 ASR 模型训练时使用合成的语音与使用人类语音之间的差距，并通过我们的数据增强方法，在目标语言中仅使用一个真实说话者就能获得有希望的 ASR 训练结果。

Mar, 2022

最小化工作量数据增广方法用于自动语音识别和翻译

研究数据扩增技术，通过将原始数据例子进行连接来建立新的训练实例，以改善用于原始数据优化的 Transformer 和 Conformer 模型，增加了对另外四种非英语语言识别方面的准确性。并证明其也适用于语音翻译任务。

Oct, 2022

用合成的混合语文本生成优化双语神经转换器

本研究探讨了如何针对混杂语音优化基于神经传递器的双语自动语音识别系统，发现半监督训练和合成的混合开关数据可以改善这一系统的性能。同时，我们分析了每个神经传递器编码器对混合开关性能的影响，并在 ASCEND 数据集上评估了我们的英语 / 普通话系统，其混合错误率为 25％，较文献节省 2.1％，同时保持好的单语测试集准确性。

Oct, 2022

代码交替文本的机器翻译数据增强技术：比较研究

在埃及阿拉伯语 - 英语混合代码生成中，我们比较了词汇替换、语言理论和回译三种流行的增强方法，通过人工评估评估了这些方法在机器翻译上的效果和增强质量。结果显示，基于回译和基于代码交替预测的词汇替换方法在两个任务中表现最佳，而在缺少代码交替并行数据的情况下，语言理论和随机词汇替换方法实现了类似的结果。

Oct, 2023

为注意力语音识别系统生成合成音频数据

本文介绍了一种利用自然语言生成的人工语音并结合于现有的自动语音识别系统中的方法，并证明仅需使用语音文本数据就可对 ASR 系统进行增强，相对于数据扩充的基线模型，本方法在 LibriSpeech-100h 上获得了高达 33% 的错误率降低并且相对于最新 ASR 基线模型在 LibriSpeech-960h 上也获得了高达 5% 的未识别词率降低。

Dec, 2019

语音拼贴：通过拼贴单语语料库的混合交替生成语音

本文介绍了一种通过拼接音频片段从单语语料库中合成 Code-Switching 数据的 Speech Collage 方法，并通过重叠添加方法提高音频生成的平滑度。我们研究了生成的数据对语音识别的影响，在使用领域内 Code-Switching 文本和合成的 Code-Switching 文本的零样本方法下，实证结果显示相对于领域内和零样本场景，混合错误率和词错误率分别降低了 34.4％和 16.2％。最后，我们证明了 Code-Switching 增强了模型的 Code-Switching 倾向并减少了其单语偏见。

Sep, 2023