具有高速公路连接的小型深度神经网络用于语音识别

Dec, 2015

具有高速公路连接的小型深度神经网络用于语音识别

Small-footprint Deep Neural Networks with Highway Connections for Speech Recognition

Liang Lu, Steve Renals

TL;DR本研究探讨了将高速公路网络应用于训练小型印记的深度神经网络，结果发现其在语音识别领域的性能超过了常规的深度神经网络，同时也显著减小了模型的参数数量。

Abstract

For speech recognition, deep neural networks (DNNs) have significantly improved the recognition accuracy in most of benchmark datasets and application domains. However, compared to the conventional Gaussian mixtu

speech recognition deep neural networks highway network small-footprint dnns model parameters

发现论文，激发创造

用于小规模高速公路网络的知识蒸馏

本文研究基于知识蒸馏的紧凑深度神经网络模型用于语音识别任务，并通过序列训练和适应进一步提高模型的准确率。在 AMI 会议语音识别语料库上的实验结果表明，该方法显著提高了模型的准确性，同时减小了模型参数规模与识别准确率之间的差距。

Aug, 2016

密集连接卷积网络用于语音识别

本文介绍了我们在使用 DenseNets 进行声学建模（AM）自动语音识别方面的最新研究，实验结果表明，DenseNet 能够显著地优于其他神经网络模型，如 DNNs、CNNs、VGGs, 甚至在使用只有一半训练数据的情况下表现也很好。

Aug, 2018

EdgeSpeechNets: 边缘高效的深度神经网络语音识别

本文探讨一种人机协同设计策略，通过人驱动的设计原则网络设计原型和机器驱动的设计探索来构建语音识别的低存储深度神经网络体系结构，实验证明此设计策略可以构建出一系列高效率的 DNNs，用于有限词汇的语音识别，更高的精度与更小的网络体积以及更低的计算成本使它们非常适合设备上的语音接口应用。

Oct, 2018

用于远距离语音识别的高速公路长短期记忆循环神经网络

本研究提出了一种基于深度神经网络的语音识别模型，它使用直连和双向 LSTM 来提高信息传递效率，并在 AMI DSR 任务上取得了显著的性能提升。

Oct, 2015

深度神经网络中的特征学习 —— 基于语音识别任务的研究

本文研究表明，深度神经网络在语音识别任务中比浅层网络和高斯混合模型表现得更好，这是因为它们具有提取具有鲁棒性的区分性内部表示的能力。此外，我们表明 DNN 不能推广到与训练样本差异显著的测试样本，但是，如果训练数据足够代表性，DNN 的内部特征相对于说话人差异、带宽差异和环境失真是相对稳定的。这种稳定性使得基于 DNN 的识别器在不需要显式模型适应或特征归一化的情况下表现得和基于 GMMs 或浅层网络的现有系统一样好甚至更好。

Jan, 2013

快速准确的循环神经网络语音识别声学模型

该论文介绍利用深度 LSTM 循环神经网络、CD 电话建模、帧叠加与减少帧率等技术来提高语音识别准确率的研究，并探讨了直接输出单词的 LSTM RNN 模型的初步结果。

Jul, 2015

从 RNN 到 DNN 的知识转移

本文研究嵌入式系统中小型深度神经网络的训练方法，提出了一种使用递归神经网络进行知识转移的方法，并通过 Kullback-Leibler 散度最小化来训练小型深度神经网络，结果显示相较于基线结果提高了 13% 的识别准确率。

Apr, 2015

多模态混合深度神经网络用于语音增强

本研究提出了一种新的深度学习模型，结合了视觉提示信息和音频信号，采用双向长短时记忆网络进行特征集成，以提高噪声下语音信号增强的质量。

Jun, 2016

面向实时深度噪声抑制的高效模型

本文研究深度学习模型在语音增强方面的应用，并探讨了网络复杂度与可达到的语音质量之间的关系，考虑了网络在回声环境下的训练。研究表明，网络的复杂度是影响语音质量的一个重要因素。

Jan, 2021

基于神经网络的关键词检测架构搜索

本文利用神经架构搜索来搜索卷积神经网络模型，以提高基于音频信号的关键词识别性能，同时保持合理的内存占用。通过不同 iable Architecture Search 技术搜索预定义细胞空间中的操作符和它们之间的连接，然后在深度和宽度上扩展发现的单元来实现具有竞争力的性能，最终在 Google 的语音命令数据集上实现 97% 的最新准确性。

Sep, 2020