本研究证明采用深度卷积网络,采用 Inception 及 ResNet 结构,结合批标准化技术、残差连接和卷积 LSTM 单元,可以提高端到端语音识别(ASR)性能,并在 WSJ ASR 任务中实现了 10.5%的单词错误率,未使用任何词典或语言。
Oct, 2016
本文分析了基于卷积和循环层、使用连结时序分类(CTC)损失函数训练的深度端到端模型所学习的语音表示,并评估模型不同层次的表示在预测电话标签方面的质量,以此为基础探讨了端到端模型的重要方面和设计选择。
Sep, 2017
本论文提出一种简单的端对端语音识别模型,用卷积神经网络基于声学模型和图解码相结合,通过输出字母实现语音转录,无需强制调整音素位置。我们引入了一种自动分割标准以进行序列注释的训练,不需要对齐即可达到与 CTC 相当的效果。我们证明了在使用 MFCC 特征的 Librispeech 数据集上具有竞争力的单词错误率,并在原始波形上得到有希望的结果。
Sep, 2016
本文提出将 CNN 与 CTC 相结合的端到端语音识别框架,以实现序列标记;在 TIMIT 音素识别任务中评估该方法并表明其在计算效率和性能上优于已有基线系统,并指出 CNN 具有利用适当上下文信息来建模时间相关性的能力。
Jan, 2017
本研究提出了一种基于 ConvNet 和 CTC(或 ASG)的字母语音模型,实现了与 WSJ 中最佳字母系统的匹配,并在 LibriSpeech 上展现了近乎最先进的表现。
Dec, 2017
本文阐述了使用非常深的卷积神经网络对嘈杂语音进行有效识别的优化策略,并且结合辅助特征共同使用能够进一步提高准确率。在 Aurora 4 任务中,该算法的词错误率达到了 7.09%。
本研究研究使用卷积架构的可训练替代 Mel 滤波器,对两种 end-to-end 系统进行修改并与 Mel 滤波器进行比较,结果表明可训练的过滤器相对于 Mel 滤波器在单词错误率方面表现更好。
Jun, 2018
使用端到端深度学习开发的演讲识别系统:不需要手工设计组件来模拟背景噪声、混响或者发言人差异,取而代之的是直接学习一个对这些影响具有鲁棒性的函数的方法,其关键是优化的 RNN 训练系统以及一组新的数据综合技术,该系统在 Switchboard Hub5'00 测试集上取得了 16.0% 的错误率,优于以前的成果,并且与广泛使用的最先进的商业演讲系统相比,Deep Speech 处理具有挑战性的嘈杂环境的能力更加出色。
Dec, 2014
本文提出了使用神经网络和语言模型进行大词汇连续语音识别的方法,并通过一种改进的前缀搜索解码算法,使得该方法完全不依赖于基于 HMM 的架构,实现了完全自主的一遍语音识别。在对华尔街日报语料库的实验中,取得了较为具有竞争力的错误率,并且证明了双向网络的重要性。
Aug, 2014
本文提出一种仅使用 1D 卷积、批量归一化、ReLU、dropout 和残差连接的端到端语音识别模型 Jasper,结合新的层次优化器 NovoGrad,实现更好的训练和更高的准确率,最先进的 Jasper 变体使用 54 个卷积层,基于 LibriSpeech test-clean 数据集使用束搜索解码器和外部神经语言模型实现 2.95% WER 和贪心解码器实现 3.86% WER,并在 Wall Street Journal 和 Hub5'00 交际评估数据集上获得了有竞争力的结果。
Apr, 2019