PyTorch-Kaldi 语音识别工具箱

Nov, 2018

The PyTorch-Kaldi Speech Recognition Toolkit

Mirco Ravanelli, Titouan Parcollet, Yoshua Bengio

TL;DR这篇论文介绍了如何使用 PyTorch-Kaldi，这是一个利用了 Kaldi 的高效性和 PyTorch 的灵活性的工具包，旨在构建目前最先进的语音识别模型。

Abstract

The availability of open-source software is playing a remarkable role in the popularization of speech recognition and deep learning. Kaldi

open-source speech recognition deep learning pytorch-kaldi neural networks

发现论文，激发创造

从预训练深度语言模型到端到端语音合成的迁移学习

本论文研究了通过引入 BERT 模型辅助训练 TTS 模型 Tacotron-2，以缓解高质量语音库的不足问题，并在模型训练中观察到模型收敛更快、结果中无杂音等优点。

Jun, 2019

深度言语：扩大端到端语音识别

使用端到端深度学习开发的演讲识别系统：不需要手工设计组件来模拟背景噪声、混响或者发言人差异，取而代之的是直接学习一个对这些影响具有鲁棒性的函数的方法，其关键是优化的 RNN 训练系统以及一组新的数据综合技术，该系统在 Switchboard Hub5'00 测试集上取得了 16.0% 的错误率，优于以前的成果，并且与广泛使用的最先进的商业演讲系统相比，Deep Speech 处理具有挑战性的嘈杂环境的能力更加出色。

Dec, 2014

跨语言知识转移和迭代伪标注没有包括专有术语或不必要的解释适用于使用转录器的低资源语音识别

该研究旨在通过跨语言知识转移和迭代伪标注的方法来提高语音识别系统对低资源语言的准确性，结果表明，使用这两种技术，可将错误率降低 35%。

May, 2023

大型预训练语言模型向端到端语音识别器的知识转移

本文提出了一种方法，通过从大规模语言模型的嵌入向量获取语义知识来缓解需要耗费大量成本的转录训练的问题，并扩展了注意力机制的解码器和神经音响模式的解码器，以实现错误率的降低。

Feb, 2022

使用合成数据和迁移学习在低资源文本转语音系统中进行快速说话者适应

使用端到端深度学习方法构建的文本到语音系统，通过高资源语言数据和合成数据进行迁移学习，利用目标语言中的现有单语者文本到语音系统生成领域内合成数据，实现在低资源环境下训练高质量的单语者文本到语音系统，证明了双重预训练和仅解码器微调的重要性，并提出了一种低成本的自定义文本到语音模型训练解决方案。

Dec, 2023

使用预训练模型的自适应多语言语音识别

使用预训练的 wav2vec 2.0 和 MBART50 模型，结合自适应权重技术，显著提高公共数据集上多语言语音识别的准确性，比纯监督学习提高 44%。同时我们还探索了如何通过微调结构以获得最佳模型。

May, 2022

FastSpeech: 快速、健壮、可控的文本到语音

本研究提出了一种基于 Transformer 模型、并行生成梅尔频谱的快速语音合成模型 FastSpeech，它在语音质量、稳定性、可控性和速度方面均具备相应优点。

May, 2019

使用知识蒸馏的语言通用适配器学习实现端到端多语言语音识别

本文提出了一个基于预训练模型的语言通用适配器学习框架，用于端到端的多语言自动语音识别。通过插入特定于语言和语言通用适配器来微调 Wav2Vec 2.0 预训练模型，然后使用在线知识蒸馏来使语言通用适配器学习特定于语言和通用特征，通过利用语言识别器（LID）降低语言信息混淆，进而改善识别准确率，并解决通用多语种 ASR 系统中适配器参数数量随语言数量线性增长的问题，BABEL 数据集上的实验结果验证了所提出框架的有效性，并相比传统的多语种模型取得了 3.3％的绝对误差率的降低。

Feb, 2023

低预算下的语音识别迁移学习

通过模型自适应的迁移学习方法，将原本用于英语自动语音识别的 Wav2Letter 卷积神经网络适配到德语 ASR 模型的训练中，实现了在受限 GPU 内存、吞吐量和训练数据的情况下，基于消费级硬件实现更快的训练，同时减少了训练数据量，从而降低了在其他语言中训练 ASR 模型的成本。网络层的微小调整已经足够实现较好的性能。

Jun, 2017

深度迁移学习用于自动语音识别：迈向更好的泛化能力

本论文通过应用深度迁移学习的自动语音识别框架对最新的发展进行综合调查研究，以帮助学术和专业人士了解当前挑战，并识别论文中每个框架的优缺点。

Apr, 2023