WeNet:面向生产的流式和非流式端到端语音识别工具包
WeNet 2.0 introduces a unified two-pass framework with bidirectional attention decoders, n-gram based language model, contextual biasing framework, and unified IO to support large-scale data for effective model training, achieving up to 10% relative recognition performance improvement over the original WeNet on various corpora and making available several important production-oriented features.
Mar, 2022
本文提出了一种新颖的两步方法,用于将流式和非流式端到端(E2E)语音识别统一到单个模型中,该模型采用混合 CTC /attention 架构,在编码器的 conformer 层进行修改,并且在推理时,CTC 解码器以流式方式生成 n 个最佳假设,然后通过注意力解码器进行重评分以得到最终结果,并且在 AISHELL-1 测试集上,基于提出的方法的统一模型相对于标准的非流式 transformer,实现了 5.60%的相对字符错误率(CER)降低,在流式 ASR 系统中实现了 640ms 的延迟。
Dec, 2020
本研究旨在加入 Listen, Attend and Spell 模型作为第二步流程,从而将端到端流式模型的性能提高至与传统语音识别系统相当,同时也满足计算和响应延迟等约束条件。
Aug, 2019
本文介绍了一个名为 ESPnet 的新的开源语音处理平台,主要关注端到端自动语音识别 (ASR),采用了广泛使用的动态神经网络工具包 Chainer 和 PyTorch 作为主要深度学习引擎,同时遵循 Kaldi ASR 工具包的风格来完成数据处理,特征提取 / 格式以及食谱以提供完整的语音识别和其他语音处理实验的设置,解释了软件平台的主要架构、几个重要功能和与主要 ASR 基准的实验结果。
Mar, 2018
通过提出一种名为 Qifusion-Net 的层自适应融合模型,我们可以在无需任何关于目标口音的先验知识的情况下,有效地识别多口音语音,并通过动态块策略实现流式解码,提取帧级声学特征,促进了精细的信息融合,实验结果表明,我们的方法在 KeSpeech 和 MagicData-RMAC 的多口音测试数据集上相对于基准模型分别降低了 22.1% 和 17.2% 的字符错误率(CER)
Jul, 2024
本文詳細描述了使用遞歸神經網絡轉導器構建端到端語音識別器的努力,該模型可以以流式方式在實時下進行解碼,能夠應對各種需求,能利用特定用戶的上下文信息,並超越基於 CTC 的模型在各評價指標中的性能表現。
Nov, 2018
该论文介绍了一种名为 ESPnet-TTS 的新型端到端文本到语音工具包,支持最先进的 E2E-TTS 模型,提供基于 Kaldi ASR 工具包的食谱,且提供预先训练好的模型和样例,因此用户可以将其用作基线,实现了与 ASR 功能的集成,如基于 ASR 的目标评估和半监督学习。
Oct, 2019
本篇文章探讨了使用 deliberation network 既关注声学特征又关注第一步文本假说的方法来提高两步叠加模型在 ASR 中性能的优化,经过 Google Voice Search 的比较实验,正确率提高了 12%(相对于 LAS rescoring),在专有名词测试集上,提高了 23%。与传统大模型相比,最好的模型在 VS 上表现要好 21%。
Mar, 2020
本文提出了一种基于 RNN-T 模型的识别模型以及 LAS rescorer 模型,不仅在精度上,而且在延迟方面超越了传统模型,并发现 RNN-T+LAS 模型相比于传统模型在精度和延迟之间更好的权衡,例如,在相同的延迟下,RNN-T+LAS 相对识别准确率提高了 8%,模型尺寸也缩小了 400 多倍。
Mar, 2020