优化边缘语音识别
本文詳細描述了使用遞歸神經網絡轉導器構建端到端語音識別器的努力,該模型可以以流式方式在實時下進行解碼,能夠應對各種需求,能利用特定用戶的上下文信息,並超越基於 CTC 的模型在各評價指標中的性能表現。
Nov, 2018
本文探讨一种人机协同设计策略,通过人驱动的设计原则网络设计原型和机器驱动的设计探索来构建语音识别的低存储深度神经网络体系结构,实验证明此设计策略可以构建出一系列高效率的 DNNs,用于有限词汇的语音识别,更高的精度与更小的网络体积以及更低的计算成本使它们非常适合设备上的语音接口应用。
Oct, 2018
本研究旨在加入 Listen, Attend and Spell 模型作为第二步流程,从而将端到端流式模型的性能提高至与传统语音识别系统相当,同时也满足计算和响应延迟等约束条件。
Aug, 2019
使用端到端深度学习开发的演讲识别系统:不需要手工设计组件来模拟背景噪声、混响或者发言人差异,取而代之的是直接学习一个对这些影响具有鲁棒性的函数的方法,其关键是优化的 RNN 训练系统以及一组新的数据综合技术,该系统在 Switchboard Hub5'00 测试集上取得了 16.0% 的错误率,优于以前的成果,并且与广泛使用的最先进的商业演讲系统相比,Deep Speech 处理具有挑战性的嘈杂环境的能力更加出色。
Dec, 2014
本研究使用循环神经网络传输器(RNN-T)来训练端到端语音识别模型,并探索了不同的模型架构。通过使用字元素(wordpieces),模型的性能进一步得到了提高,最终在语音搜索和语音听写任务上取得了与最新基线相当的成果。
Jan, 2018
本文提出一个高效的 3 阶段渐进训练管道,能够快速利用有限的计算资源训练出接近最新成果性能的转录模型,证明了每个阶段的有效性,并在 Librispeech 和 Switchboard 训练语料库上进行了实验证明。
Apr, 2022
本文中,我们介绍了最近开发的 RNN-T 模型,它在训练期间具有较小的 GPU 内存消耗、更好的初始化策略和先进的编码器建模,对 Microsoft 的 6.5 万小时的匿名训练数据进行训练后,开发的 RNN-T 模型优于经过训练良好的混合模型,同时具有更好的识别准确性和更低的延迟。我们进一步研究了如何将 RNN-T 模型定制为新领域,并比较了几种使用新领域纯文本数据的方法。研究发现,利用特定领域文本生成的文本到语音更新 RNN-T 的预测和联合网络最有效。
Jul, 2020
本文介绍了一种大词汇量语音识别系统,其特点是准确、延迟低,同时其内存和计算资源占用不大,可以在 Nexus 5 Android 智能手机上以快于实时的速度运行。使用一种量化的 LSTM 音频模型和 CTC 训练直接预测音素目标,进一步使用基于 SVD 的压缩方案进一步减小内存占用,同时利用贝叶斯插值构建单一的语言模型,在植入词汇项进入解码器图表并实时更改语言模型偏差的情况下正确执行设备特定的信息。其最终取得的效果是在开放式口述任务中 13.5% 的单词错误率,而以运行速度优于实时的为媒介获得更优秀的结果。
Mar, 2016
本研究通过探究去除特定模块的影响以及减少神经网络的数字精度的方法,成功地简化和压缩了基于 Transformer 编码器 - 解码器的端到端语音识别架构,实验结果表明,我们能够通过将数字精度减少到 8 位定点精度,将全精度模型的参数数量减小并将模型进一步压缩 4 倍,同时维持模型高精度。
Nov, 2019