本研究证明采用深度卷积网络,采用 Inception 及 ResNet 结构,结合批标准化技术、残差连接和卷积 LSTM 单元,可以提高端到端语音识别(ASR)性能,并在 WSJ ASR 任务中实现了 10.5%的单词错误率,未使用任何词典或语言。
Oct, 2016
本文提出了一种用于 LVCSR 的卷积神经网络架构的多项结构改进,包括使用深度卷积神经网络、多语言 CNN 和多尺度输入特征等方法,通过在多个数据集上训练并应用提出的网络结构,实现了语音识别性能的提升。
Sep, 2015
本文探讨了如何有效地扩展使用小型 3x3 卷积核的深度卷积神经网络作为混合 NN-HMM 语音识别系统的声学模型,提出了一种新的 CNN 设计,通过批量归一化来恢复去除时间池化带来的性能损失,确保模型快速、高效地解决长切分音频识别。
Apr, 2016
本文提出了一种利用深度卷积神经网络从原始波形数据中直接学习音频模型的方法,通过批归一化、剩余学习和精心设计的下采样实现高效处理音频波形,并在环境声音识别任务中取得了 15% 的性能提升,达到了使用对数 - 梅尔特征的模型的性能。
本文通过比较不同的权重共享、池化策略和加入说话人自适应、dropout 等措施,改进了深度卷积神经网络(CNN)性能,在广播新闻任务中实现了 WER 2-5% 的相对提升。
Sep, 2013
本文提出了一种基于卷积神经网络的语音识别方法,相对于传统的基于循环神经网络的模型使用更少的特征提取步骤,并在多项测试中取得了当下最佳的表现。
Dec, 2018
本文介绍了我们在使用 DenseNets 进行声学建模(AM)自动语音识别方面的最新研究,实验结果表明,DenseNet 能够显著地优于其他神经网络模型,如 DNNs、CNNs、VGGs, 甚至在使用只有一半训练数据的情况下表现也很好。
Aug, 2018
通过研究卷积层的滤波器数目对 CNN+RNN 语音识别模型的预测准确率的影响,提出声音到向量嵌入 (CNN 嵌入) 的假设,并通过参数优化开发出一个轻型的 End-to-End 语音识别系统。该系统在仅有声学模型且无中间语音表示和语言模型的辅助下,仅含 4.4 百万权值参数就能够实现达到 90.2% 的字准确率,并且模型计算效率较高,也适用于移动设备或自动驾驶等场景。
Feb, 2021
提出了一个基于噪声感知的训练框架,将增强语音引入到声学模型的多条件训练中,通过两个级联的神经结构来优化增强语音和语音识别,并取得了较好的实验结果。
Mar, 2022
本文提出将 CNN 与 CTC 相结合的端到端语音识别框架,以实现序列标记;在 TIMIT 音素识别任务中评估该方法并表明其在计算效率和性能上优于已有基线系统,并指出 CNN 具有利用适当上下文信息来建模时间相关性的能力。
Jan, 2017