使用即时数据增强技术改进序列到序列语音识别训练
采用数据增强和 TTS 技术,对 ASR 的训练数据进行扩充,并通过集成语言模型,在 LibriSpeech 数据上建立 end-to-end 模型,相对于半监督技术的效果更好。
May, 2020
本研究针对面向任务对话系统中语言理解的数据增强问题,提出了基于序列到序列生成的数据增强框架来提高模型的性能,该框架利用训练数据中某个话语的同义替代品来增强数据,将多样性排名纳入话语表示中,生成多样性增加的话语,实验证明在仅有数百个话语的情况下,在 Airline Travel Information System 数据集和 Stanford Multi-turn,Multidomain Dialogue 数据集上都取得了显著的 6.38 和 10.04 分数提高。
Jul, 2018
本研究旨在提出一种新的数据增强方法来改善自动语音识别模型,该方法生成合成文本和合成音频,使用该方法可以提高 Quechua 语言的 ASR 模型的词错误率(WER)达到 8.73%的改善。
Apr, 2022
本文提出了一种改进的半监督序列到序列自动语音识别的一致性训练范式,利用音频链重构作为弱增强来生成高质量的伪标签,并证明了学生 ASR 模型产生的动态伪转录文本有助于一致性训练。实验结果显示,相对于监督基线,我们的改进范例在单说话者和多说话者情况下分别获得了 12.2% 和 38.6% 的 CER 提升。
May, 2022
本文提出了一种基于 TTS 的数据增强方法,用于改进非自回归 TTS 系统的质量,实验表明该方法显著提高了非自回归 TTS 系统的质量。
Oct, 2020
本文探讨使用预训练神经网络和传统文本增强方法来进行自动语音识别数据的文本增强,并利用文本转语音系统将生成的合成文本转换为合成语音并添加到自动语音识别训练数据中,实验结果表明使用现代神经方法的文本增强是提高自动语音识别系统准确性的可行工具
May, 2023
本文讨论了直接语音到语音翻译模型面临的数据稀缺性问题,探索了自监督预训练和数据增强技术来解决此问题,实验表明自监督预训练可以提高模型性能,结合数据增强技术可以进一步提高模型性能。
Apr, 2022
研究数据扩增技术,通过将原始数据例子进行连接来建立新的训练实例,以改善用于原始数据优化的 Transformer 和 Conformer 模型,增加了对另外四种非英语语言识别方面的准确性。并证明其也适用于语音翻译任务。
Oct, 2022
本文研究表明,基于自回归神经网络模型的最近的语音合成系统几乎可以生成与人类录音难以区分的语音。而这些模型需要大量的数据,本文证明可以用其他讲话者的数据弥补一个讲话者数据的不足。
Nov, 2018