语音识别统一流式和非流式两遍端到端模型

Dec, 2020

语音识别统一流式和非流式两遍端到端模型

Unified Streaming and Non-streaming Two-pass End-to-end Model for Speech Recognition

Binbin Zhang, Di Wu, Zhuoyuan Yao, Xiong Wang, Fan Yu...

TL;DR本文提出了一种新颖的两步方法，用于将流式和非流式端到端（E2E）语音识别统一到单个模型中，该模型采用混合 CTC /attention 架构，在编码器的 conformer 层进行修改，并且在推理时，CTC 解码器以流式方式生成 n 个最佳假设，然后通过注意力解码器进行重评分以得到最终结果，并且在 AISHELL-1 测试集上，基于提出的方法的统一模型相对于标准的非流式 transformer，实现了 5.60％的相对字符错误率（CER）降低，在流式 ASR 系统中实现了 640ms 的延迟。

Abstract

In this paper, we present a novel two-pass approach to unify streaming and non-streaming end-to-end (E2E) speech recognition in a single model. Our model adopts the hybrid ctc/attention architecture, in which the conformer layers in the encoder are modified. We propose a →

end-to-end speech recognition hybrid ctc/attention architecture dynamic chunk-based attention strategy streaming asr non-streaming asr

发现论文，激发创造

WeNet：面向生产的流式和非流式端到端语音识别工具包

本文提出了一种开源、生产级的语音识别工具 WeNet，采用新的两遍通行法整合流媒体和非流媒体端到端语音识别，实现了非流媒体 ASR 的相对字符误差率降低，并且具有较低的推理延迟和高的运行时效率。

Feb, 2021

用对比学习增强统一流式和非流式模型

本论文通过对比目标法，缩小流式模式和非流式模式间的固有差距，提高了统一模型的准确性，在 AISHELL-1 基准测试中达到了 CER 值 4.66%（流式模式）和 4.31%（非流式模式），创造了新的最高记录。

Jun, 2023

两遍端到端语音识别

本研究旨在加入 Listen, Attend and Spell 模型作为第二步流程，从而将端到端流式模型的性能提高至与传统语音识别系统相当，同时也满足计算和响应延迟等约束条件。

Aug, 2019

基于 Transformer 的 CTC / 注意力机制在线端到端语音识别架构

本论文介绍了基于 Transformer 的在线 CTC/Attention E2E ASR 架构，该架构包括块自注意力编码器和基于单调截断注意力的自注意力解码器，通过将块自注意力编码器和基于单调截断注意力的自注意力解码器集成到在线 CTC/Attention 架构中，实现了在线语音识别，与离线基线相比，具有最低为 0.19％的 CER 衰减和显着的性能提升。

Jan, 2020

一种更好和更快的流式 ASR 端到端模型

本文研究了使用不同算法，如 FastEmit，Conformer 层和 Cascaded Encoders 等，提高端到端模型在流式语音识别领域的质量和延迟平衡。

Nov, 2020

基于决策模型的双通道端到端语音识别

本篇文章探讨了使用 deliberation network 既关注声学特征又关注第一步文本假说的方法来提高两步叠加模型在 ASR 中性能的优化，经过 Google Voice Search 的比较实验，正确率提高了 12%（相对于 LAS rescoring），在专有名词测试集上，提高了 23%。与传统大模型相比，最好的模型在 VS 上表现要好 21%。

Mar, 2020

基于关注机制端到端语音识别的编码器比较：独立识别模式与重打分模式

本文研究了基于注意力机制的端到端语音识别模型在 Flipkart 语音搜索任务的应用，使用编码器 - 解码器 LAS 架构实现非流式和流式模型并比较它们的性能和延迟要求，结果表明变压器模型具有可接受的词错误率和最低延迟要求，在第二次 LAS 二次得分中相对 WER 以 5ms 以内的延迟开销提高 16％左右，此外，观察到在第二次得分模式下，所有编码器提供的好处相似，而性能的差异则在独立文本生成模式下更为突出。

Jun, 2022

多解码器与知识蒸馏的流式与非流式自动语音识别的联合优化

本文通过使用多解码器和知识蒸馏来实现流式和非流式自动语音识别（ASR）的联合优化，主要研究了 ASR 模块的编码器整合、分离解码器以实现灵活切换模式，以及通过两个模块化编码器和解码器之间的相似性保持知识蒸馏来提高性能。评估结果显示，在单一模型中与多个独立模块相比，流式 ASR 的字符错误率相对减少了 2.6%-5.3%，非流式 ASR 的字符错误率相对减少了 8.3%-9.7%。

May, 2024

基于 Transformer 的流式端到端自动语音识别中的平移块编码器

提出一种基于移位块机制的 SChunk-Transformer 和 SChunk-Conformer 模型，可以较好地解决全局上下文建模和训练效率问题，在 AISHELL-1 测试集上分别取得 6.43% 和 5.77% 的 CER 准确率，与传统的块式模型相比性能更佳。

Mar, 2022

大规模语音识别常用端到端模型比较

本研究比较了非流式和流式模式下三种端到端自动语音识别模型，包括循环神经网络转导器（RNN-T）、循环神经网络基于注意力的编码器 - 解码器（RNN-AED）和 Transformer-AED。研究表明，Transformer-AED 在流式和非流式模式下的精度最佳，并且在流式模式下如果其编码器可以正确初始化，RNN-T 也是一个具有竞争力的模型。与高度优化的混合模型相比，流式 RNN-T 和 Transformer-AED 模型均可以获得更好的精度。

May, 2020