使用Kaldi和PDNN构建基于DNN的ASR系统

Jan, 2014

Kaldi+PDNN: Building DNN-based ASR Systems with Kaldi and PDNN

Yajie Miao

TL;DR本文介绍了使用 Kaldi 套件和 PDNN，使用 DNN 声学建模实现全面操作的一些开源配方，可以构建多种语音识别系统，包括 DNN 混合系统、卷积神经网络系统和瓶颈特征系统。

Abstract

The kaldi toolkit is becoming popular for constructing automated speech recognition (ASR) systems. Meanwhile, in recent years, deep neural networ

发现论文，激发创造

本文主要介绍了Kaldi语音识别工具包中使用的神经网络训练框架。该框架可用于使用多个带有GPU的计算机或多核计算机训练大量训练数据的DNNs。神经网络参数的定期平均化和分发以及NG-SGD的近似高效实现似乎能够使训练方法有效地工作，同时还可以大大提高单个机器上SGD的收敛性。

Oct, 2014

本文研究嵌入式系统中小型深度神经网络的训练方法，提出了一种使用递归神经网络进行知识转移的方法，并通过 Kullback-Leibler 散度最小化来训练小型深度神经网络，结果显示相较于基线结果提高了13%的识别准确率。

Apr, 2015

本文提出了一种用于噪声环境下语音自动识别的新型深度循环神经网络模型，结合了深度神经网络和双向长短期记忆网络，在华尔街日报数据集上相较于传统深度神经网络模型提高了近8%。

Apr, 2015

本研究探讨了将高速公路网络应用于训练小型印记的深度神经网络，结果发现其在语音识别领域的性能超过了常规的深度神经网络，同时也显著减小了模型的参数数量。

Dec, 2015

本研究对基于双向长短时记忆（LSTM）循环神经网络（RNN）的自动语音识别（ASR）进行了全面的研究，探索了深度、大小、优化方法等不同因素的影响，并通过实验分析在Quaero语料库上实现了提高词错误率的效果，并比较了不同的培训计算时间。

Jun, 2016

本文研究基于知识蒸馏的紧凑深度神经网络模型用于语音识别任务，并通过序列训练和适应进一步提高模型的准确率。在AMI会议语音识别语料库上的实验结果表明，该方法显著提高了模型的准确性，同时减小了模型参数规模与识别准确率之间的差距。

Aug, 2016

本文总结了基于深度学习的声学模型最近取得的进展和技术的动机和见解，讨论了可以有效利用可变长度上下文信息的语音识别模型，如RNN、CNN及其与其他模型的组合，以及优化了端对端性能的声学模型和鲁棒性训练策略，同时讨论了语音增强和分离等建模技术。

Apr, 2018

这篇论文介绍了如何使用PyTorch-Kaldi，这是一个利用了Kaldi的高效性和PyTorch的灵活性的工具包，旨在构建目前最先进的语音识别模型。

Nov, 2018

使用数据和知识驱动的方法结合多语言语音数据来进行自动语音识别系统的多语言训练，并在低资源和中资源运用DNN的分层映射技术和多任务DNN模型，分别在印度语种中取得9.66％ ~ 27.24％不等的相对准确率提升。

Jan, 2022

本文探讨了使用Mel频率倒谱系数特征提取方法和三种不同的深度神经网络模型(CNN、RNN和MLP)，以及两个将CNN和RNN组合的混合模型识别达里语中个体单词的方法，结果表明，使用该技术可以获得98.365%的准确率。

May, 2023