本文研究基于知识蒸馏的紧凑深度神经网络模型用于语音识别任务,并通过序列训练和适应进一步提高模型的准确率。在 AMI 会议语音识别语料库上的实验结果表明,该方法显著提高了模型的准确性,同时减小了模型参数规模与识别准确率之间的差距。
Aug, 2016
本文介绍了我们在使用 DenseNets 进行声学建模(AM)自动语音识别方面的最新研究,实验结果表明,DenseNet 能够显著地优于其他神经网络模型,如 DNNs、CNNs、VGGs, 甚至在使用只有一半训练数据的情况下表现也很好。
Aug, 2018
本文探讨一种人机协同设计策略,通过人驱动的设计原则网络设计原型和机器驱动的设计探索来构建语音识别的低存储深度神经网络体系结构,实验证明此设计策略可以构建出一系列高效率的 DNNs,用于有限词汇的语音识别,更高的精度与更小的网络体积以及更低的计算成本使它们非常适合设备上的语音接口应用。
Oct, 2018
本研究提出了一种基于深度神经网络的语音识别模型,它使用直连和双向 LSTM 来提高信息传递效率,并在 AMI DSR 任务上取得了显著的性能提升。
Oct, 2015
本文研究表明,深度神经网络在语音识别任务中比浅层网络和高斯混合模型表现得更好,这是因为它们具有提取具有鲁棒性的区分性内部表示的能力。此外,我们表明 DNN 不能推广到与训练样本差异显著的测试样本,但是,如果训练数据足够代表性,DNN 的内部特征相对于说话人差异、带宽差异和环境失真是相对稳定的。这种稳定性使得基于 DNN 的识别器在不需要显式模型适应或特征归一化的情况下表现得和基于 GMMs 或浅层网络的现有系统一样好甚至更好。
Jan, 2013
该论文介绍利用深度 LSTM 循环神经网络、CD 电话建模、帧叠加与减少帧率等技术来提高语音识别准确率的研究,并探讨了直接输出单词的 LSTM RNN 模型的初步结果。
Jul, 2015
本文研究嵌入式系统中小型深度神经网络的训练方法,提出了一种使用递归神经网络进行知识转移的方法,并通过 Kullback-Leibler 散度最小化来训练小型深度神经网络,结果显示相较于基线结果提高了 13% 的识别准确率。
Apr, 2015
本研究提出了一种新的深度学习模型,结合了视觉提示信息和音频信号,采用双向长短时记忆网络进行特征集成,以提高噪声下语音信号增强的质量。
Jun, 2016
本文研究深度学习模型在语音增强方面的应用,并探讨了网络复杂度与可达到的语音质量之间的关系,考虑了网络在回声环境下的训练。研究表明,网络的复杂度是影响语音质量的一个重要因素。
Jan, 2021
本文利用神经架构搜索来搜索卷积神经网络模型,以提高基于音频信号的关键词识别性能,同时保持合理的内存占用。通过不同 iable Architecture Search 技术搜索预定义细胞空间中的操作符和它们之间的连接,然后在深度和宽度上扩展发现的单元来实现具有竞争力的性能,最终在 Google 的语音命令数据集上实现 97% 的最新准确性。
Sep, 2020