WeNet：面向生产的流式和非流式端到端语音识别工具包

Feb, 2021

WeNet：面向生产的流式和非流式端到端语音识别工具包

WeNet: Production oriented Streaming and Non-streaming End-to-End Speech Recognition Toolkit

Zhuoyuan Yao, Di Wu, Xiong Wang, Binbin Zhang, Fan Yu...

TL;DR本文提出了一种开源、生产级的语音识别工具 WeNet，采用新的两遍通行法整合流媒体和非流媒体端到端语音识别，实现了非流媒体 ASR 的相对字符误差率降低，并且具有较低的推理延迟和高的运行时效率。

Abstract

In this paper, we propose an open source, production first, and production ready speech recognition toolkit called wenet in which a new two-pass approach is implemented to unify streaming and non-streaming end-to

wenet e2e speech recognition attention strategy ctc

发现论文，激发创造

WeNet 2.0：更高效的端到端语音识别工具包

WeNet 2.0 introduces a unified two-pass framework with bidirectional attention decoders, n-gram based language model, contextual biasing framework, and unified IO to support large-scale data for effective model training, achieving up to 10% relative recognition performance improvement over the original WeNet on various corpora and making available several important production-oriented features.

Mar, 2022

语音识别统一流式和非流式两遍端到端模型

本文提出了一种新颖的两步方法，用于将流式和非流式端到端（E2E）语音识别统一到单个模型中，该模型采用混合 CTC /attention 架构，在编码器的 conformer 层进行修改，并且在推理时，CTC 解码器以流式方式生成 n 个最佳假设，然后通过注意力解码器进行重评分以得到最终结果，并且在 AISHELL-1 测试集上，基于提出的方法的统一模型相对于标准的非流式 transformer，实现了 5.60％的相对字符错误率（CER）降低，在流式 ASR 系统中实现了 640ms 的延迟。

Dec, 2020

两遍端到端语音识别

本研究旨在加入 Listen, Attend and Spell 模型作为第二步流程，从而将端到端流式模型的性能提高至与传统语音识别系统相当，同时也满足计算和响应延迟等约束条件。

Aug, 2019

高速准确流式端到端自动语音识别

本文提出了使用延迟惩罚技巧和最小词错误率训练技术来减少端到端模型延迟以提高其质量的方法，并在语音识别方面展示出重要改进。

Apr, 2020

ESPnet: 端到端语音处理工具包

本文介绍了一个名为 ESPnet 的新的开源语音处理平台，主要关注端到端自动语音识别 (ASR)，采用了广泛使用的动态神经网络工具包 Chainer 和 PyTorch 作为主要深度学习引擎，同时遵循 Kaldi ASR 工具包的风格来完成数据处理，特征提取 / 格式以及食谱以提供完整的语音识别和其他语音处理实验的设置，解释了软件平台的主要架构、几个重要功能和与主要 ASR 基准的实验结果。

Mar, 2018

Qifusion-Net: 面向端到端的多口音语音识别的层自适应流 / 非流模型

通过提出一种名为 Qifusion-Net 的层自适应融合模型，我们可以在无需任何关于目标口音的先验知识的情况下，有效地识别多口音语音，并通过动态块策略实现流式解码，提取帧级声学特征，促进了精细的信息融合，实验结果表明，我们的方法在 KeSpeech 和 MagicData-RMAC 的多口音测试数据集上相对于基准模型分别降低了 22.1% 和 17.2% 的字符错误率（CER）

Jul, 2024

移动设备端到端语音识别流式处理

本文詳細描述了使用遞歸神經網絡轉導器構建端到端語音識別器的努力，該模型可以以流式方式在實時下進行解碼，能夠應對各種需求，能利用特定用戶的上下文信息，並超越基於 CTC 的模型在各評價指標中的性能表現。

Nov, 2018

ESPnet-TTS: 统一、可重现、可集成的开源端到端语音合成工具包

该论文介绍了一种名为 ESPnet-TTS 的新型端到端文本到语音工具包，支持最先进的 E2E-TTS 模型，提供基于 Kaldi ASR 工具包的食谱，且提供预先训练好的模型和样例，因此用户可以将其用作基线，实现了与 ASR 功能的集成，如基于 ASR 的目标评估和半监督学习。

Oct, 2019

基于决策模型的双通道端到端语音识别

本篇文章探讨了使用 deliberation network 既关注声学特征又关注第一步文本假说的方法来提高两步叠加模型在 ASR 中性能的优化，经过 Google Voice Search 的比较实验，正确率提高了 12%（相对于 LAS rescoring），在专有名词测试集上，提高了 23%。与传统大模型相比，最好的模型在 VS 上表现要好 21%。

Mar, 2020

一种超越服务器传统模型质量和延迟的流式设备端到端模型

本文提出了一种基于 RNN-T 模型的识别模型以及 LAS rescorer 模型，不仅在精度上，而且在延迟方面超越了传统模型，并发现 RNN-T+LAS 模型相比于传统模型在精度和延迟之间更好的权衡，例如，在相同的延迟下，RNN-T+LAS 相对识别准确率提高了 8％，模型尺寸也缩小了 400 多倍。

Mar, 2020