用于 LVCSR 的非常深的多语言卷积神经网络
本文通过比较不同的权重共享、池化策略和加入说话人自适应、dropout 等措施,改进了深度卷积神经网络(CNN)性能,在广播新闻任务中实现了 WER 2-5% 的相对提升。
Sep, 2013
本文探讨了如何有效地扩展使用小型 3x3 卷积核的深度卷积神经网络作为混合 NN-HMM 语音识别系统的声学模型,提出了一种新的 CNN 设计,通过批量归一化来恢复去除时间池化带来的性能损失,确保模型快速、高效地解决长切分音频识别。
Apr, 2016
本文阐述了使用非常深的卷积神经网络对嘈杂语音进行有效识别的优化策略,并且结合辅助特征共同使用能够进一步提高准确率。在 Aurora 4 任务中,该算法的词错误率达到了 7.09%。
Oct, 2016
本研究证明采用深度卷积网络,采用 Inception 及 ResNet 结构,结合批标准化技术、残差连接和卷积 LSTM 单元,可以提高端到端语音识别(ASR)性能,并在 WSJ ASR 任务中实现了 10.5%的单词错误率,未使用任何词典或语言。
Oct, 2016
本文介绍了一种新的基于 VDCNN 的文本处理体系结构,通过使用 29 个卷积层,仅使用小型卷积和池化操作,该模型的性能得到了提高,并且在多个公共文本分类任务上,相对于现有模型,且在文本处理中使用非常深的卷积神经网络实现了最先进水平。
Jun, 2016
本文报道了一种新的 CNN-RNN-transducer 结构 ContextNet,它包括一个全卷积编码器,通过添加 squeeze-and-excitation 模块将全局上下文信息嵌入到卷积层中,以及一个简单的缩放方法,实现了计算和准确度之间的良好折衷,这种模型在多个基准测试集上显著优于其他模型。
May, 2020
本文提出了一种新颖的深度卷积神经网络架构 RCNN-CTC,其通过残差连接和时间分类损失函数,能够同时利用语音信号的时间和光谱结构,并提出了一种 CTC-based 系统组合方法,可以显著减少 WSJ 和腾讯 Chat 数据集上的语音识别误差率。
Feb, 2017
通过研究卷积层的滤波器数目对 CNN+RNN 语音识别模型的预测准确率的影响,提出声音到向量嵌入 (CNN 嵌入) 的假设,并通过参数优化开发出一个轻型的 End-to-End 语音识别系统。该系统在仅有声学模型且无中间语音表示和语言模型的辅助下,仅含 4.4 百万权值参数就能够实现达到 90.2% 的字准确率,并且模型计算效率较高,也适用于移动设备或自动驾驶等场景。
Feb, 2021
该论文提出了一种新的卷积神经网络 (CNN) 架构,通过使用具有不同计算复杂度的多分支网络,在不同的尺度上频繁合并特征,以使用更少的计算实现多尺度特征,并在目标识别和语音识别任务上显著提高了模型效率和性能。
Jul, 2018
本文提出了一种利用深度卷积神经网络从原始波形数据中直接学习音频模型的方法,通过批归一化、剩余学习和精心设计的下采样实现高效处理音频波形,并在环境声音识别任务中取得了 15% 的性能提升,达到了使用对数 - 梅尔特征的模型的性能。
Oct, 2016