数据集对自动语音识别声学模型的影响
本文研究表明,深度神经网络在语音识别任务中比浅层网络和高斯混合模型表现得更好,这是因为它们具有提取具有鲁棒性的区分性内部表示的能力。此外,我们表明 DNN 不能推广到与训练样本差异显著的测试样本,但是,如果训练数据足够代表性,DNN 的内部特征相对于说话人差异、带宽差异和环境失真是相对稳定的。这种稳定性使得基于 DNN 的识别器在不需要显式模型适应或特征归一化的情况下表现得和基于 GMMs 或浅层网络的现有系统一样好甚至更好。
Jan, 2013
本研究旨在通过训练系统实现自动持续语音识别,并以瑞典口语为例,使用隐藏马尔可夫模型,利用 SpeechDat 数据库进行参数训练。在这项研究中,声学建模在语音识别应用方面具有一定的普适性,尽管对模型评估仅考虑了一个简化的任务(数字和自然数识别)。研究还测试了不同类型的音素模型,包括独立上下文模型和两种上下文相关模型的变体。同时,还进行了多个使用双字语言模型调整系统参数的实验。研究还检查了在不同说话者子集(性别、年龄和方言)上系统性能的情况,并将结果与先前类似研究进行了对比,显示出明显的改进。
Apr, 2024
本研究探讨了将高速公路网络应用于训练小型印记的深度神经网络,结果发现其在语音识别领域的性能超过了常规的深度神经网络,同时也显著减小了模型的参数数量。
Dec, 2015
本文研究基于知识蒸馏的紧凑深度神经网络模型用于语音识别任务,并通过序列训练和适应进一步提高模型的准确率。在 AMI 会议语音识别语料库上的实验结果表明,该方法显著提高了模型的准确性,同时减小了模型参数规模与识别准确率之间的差距。
Aug, 2016
该论文介绍利用深度 LSTM 循环神经网络、CD 电话建模、帧叠加与减少帧率等技术来提高语音识别准确率的研究,并探讨了直接输出单词的 LSTM RNN 模型的初步结果。
Jul, 2015
本文研究表明,基于自回归神经网络模型的最近的语音合成系统几乎可以生成与人类录音难以区分的语音。而这些模型需要大量的数据,本文证明可以用其他讲话者的数据弥补一个讲话者数据的不足。
Nov, 2018
本文总结了基于深度学习的声学模型最近取得的进展和技术的动机和见解,讨论了可以有效利用可变长度上下文信息的语音识别模型,如 RNN、CNN 及其与其他模型的组合,以及优化了端对端性能的声学模型和鲁棒性训练策略,同时讨论了语音增强和分离等建模技术。
Apr, 2018
研究探讨了在自动语音识别中单一基准测试数据的数字推动是否具有价值,发现噪声增强有助于提高模型的泛化性能,并且使用大量的基准测试数据可以良好地代表真实世界中的性能表现,最终得出在广泛使用的数据集上训练单一声学模型可达到竞争性的研究和现实世界基准测试性能。
Oct, 2020
本研究通过 wav2vec 2.0 模型中提取的嵌入来区分多达 100 种荷兰四种方言的发音差异,结果表明,基于声学模型的方法优于基于电话转录的方法,且 XLSR-53 模型在荷兰方言的微调后表现最佳,仅仅利用六秒的语音,即可得到与实际情况吻合的聚类。
May, 2022
本文研究在语音识别中应用大规模核方法和深度神经网络进行声学建模,并比较它们的性能。我们在四个数据集上进行了实验,使用随机傅里叶特征方法以扩展核方法的规模,在特征选择和监控基于帧的指标等方面提出了两种新技术,并演示了这些方法综合运用可以将核声学模型的性能提高到与深度神经网络相似的水平。
Jan, 2017