基于反向翻译的端到端自动语音识别数据增强
本研究探讨一种使用最少监督训练的无自动语音识别(ASR)的端到端(E2E)系统,用于基于文本查询的关键词搜索(KWS)系统,该系统由三个子系统组成:一个基于递归神经网络(RNN)的声学自动编码器,一个使用从卷积神经网络中学到的嵌入的字符级RNN语言模型,以及一个输入文本查询和声纹嵌入并预测查询是否出现在声纹信息中的前馈神经网络。
Jan, 2017
采用数据增强和TTS技术,对ASR的训练数据进行扩充,并通过集成语言模型,在LibriSpeech数据上建立end-to-end模型,相对于半监督技术的效果更好。
May, 2020
本研究利用外部文本数据提高自动语音识别的性能,探讨了一种方法,在共享解码器和编码器部分的集合中,联合训练自动语音识别和掩码语言模型。经实验验证,该方法在测试中取得了非常好的效果,耗时不增加。
Feb, 2022
本文提出了一种方法,通过从大规模语言模型的嵌入向量获取语义知识来缓解需要耗费大量成本的转录训练的问题,并扩展了注意力机制的解码器和神经音响模式的解码器,以实现错误率的降低。
Feb, 2022
该研究论文介绍了端到端自动语音识别模型的分类和改进,讨论了它们对传统隐马尔科夫模型的影响,涵盖了模型、训练、解码和外部语言模型集成等各个方面,同时讨论了性能和部署机会以及未来的发展前景。
Mar, 2023
采用自监督离散单元并将目标语言数据转化为人工翻译的语言模拟数据的 back translation for speech-to-text translation(BT4ST)方法,可有效解决资源不足情境下进行端到端语音转文本翻译的问题。
May, 2023
本文提出了一种基于文本的语音编辑模型的数据增强方法,以改善端到端自动语音识别模型在 code-switching 和命名实体识别方面的效果。实验结果表明,相对于音频拼接和神经 TTS 数据增强系统,本文提出的方法显著地提高了识别水平。
Jun, 2023
利用预训练语音表示模型与大型语言模型(LLM)的集成,通过以语音表示作为语音提示,自动逐步生成文本标记,以利用LLM提供的广博知识,从而实现端到端的自动语音识别(ASR)模型,该模型还可结合推理优化和参数高效领域适应等关键技术,实现与现代端到端ASR模型相媲美的性能。
Dec, 2023