PyTorch-Kaldi 语音识别工具箱
本论文研究了通过引入 BERT 模型辅助训练 TTS 模型 Tacotron-2,以缓解高质量语音库的不足问题,并在模型训练中观察到模型收敛更快、结果中无杂音等优点。
Jun, 2019
使用端到端深度学习开发的演讲识别系统:不需要手工设计组件来模拟背景噪声、混响或者发言人差异,取而代之的是直接学习一个对这些影响具有鲁棒性的函数的方法,其关键是优化的 RNN 训练系统以及一组新的数据综合技术,该系统在 Switchboard Hub5'00 测试集上取得了 16.0% 的错误率,优于以前的成果,并且与广泛使用的最先进的商业演讲系统相比,Deep Speech 处理具有挑战性的嘈杂环境的能力更加出色。
Dec, 2014
该研究旨在通过跨语言知识转移和迭代伪标注的方法来提高语音识别系统对低资源语言的准确性,结果表明,使用这两种技术,可将错误率降低 35%。
May, 2023
本文提出了一种方法,通过从大规模语言模型的嵌入向量获取语义知识来缓解需要耗费大量成本的转录训练的问题,并扩展了注意力机制的解码器和神经音响模式的解码器,以实现错误率的降低。
Feb, 2022
使用端到端深度学习方法构建的文本到语音系统,通过高资源语言数据和合成数据进行迁移学习,利用目标语言中的现有单语者文本到语音系统生成领域内合成数据,实现在低资源环境下训练高质量的单语者文本到语音系统,证明了双重预训练和仅解码器微调的重要性,并提出了一种低成本的自定义文本到语音模型训练解决方案。
Dec, 2023
使用预训练的 wav2vec 2.0 和 MBART50 模型,结合自适应权重技术,显著提高公共数据集上多语言语音识别的准确性,比纯监督学习提高 44%。同时我们还探索了如何通过微调结构以获得最佳模型。
May, 2022
本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech,它在语音质量、稳定性、可控性和速度方面均具备相应优点。
May, 2019
本文提出了一个基于预训练模型的语言通用适配器学习框架,用于端到端的多语言自动语音识别。通过插入特定于语言和语言通用适配器来微调 Wav2Vec 2.0 预训练模型,然后使用在线知识蒸馏来使语言通用适配器学习特定于语言和通用特征,通过利用语言识别器(LID)降低语言信息混淆,进而改善识别准确率,并解决通用多语种 ASR 系统中适配器参数数量随语言数量线性增长的问题,BABEL 数据集上的实验结果验证了所提出框架的有效性,并相比传统的多语种模型取得了 3.3%的绝对误差率的降低。
Feb, 2023
通过模型自适应的迁移学习方法,将原本用于英语自动语音识别的 Wav2Letter 卷积神经网络适配到德语 ASR 模型的训练中,实现了在受限 GPU 内存、吞吐量和训练数据的情况下,基于消费级硬件实现更快的训练,同时减少了训练数据量,从而降低了在其他语言中训练 ASR 模型的成本。网络层的微小调整已经足够实现较好的性能。
Jun, 2017
本论文通过应用深度迁移学习的自动语音识别框架对最新的发展进行综合调查研究,以帮助学术和专业人士了解当前挑战,并识别论文中每个框架的优缺点。
Apr, 2023