多解码器与知识蒸馏的流式与非流式自动语音识别的联合优化

MMMay, 2024

多解码器与知识蒸馏的流式与非流式自动语音识别的联合优化

Joint Optimization of Streaming and Non-Streaming Automatic Speech Recognition with Multi-Decoder and Knowledge Distillation

PDF

Muhammad Shakeel, Yui Sudo, Yifan Peng, Shinji Watanabe

TL;DR本文通过使用多解码器和知识蒸馏来实现流式和非流式自动语音识别（ASR）的联合优化，主要研究了 ASR 模块的编码器整合、分离解码器以实现灵活切换模式，以及通过两个模块化编码器和解码器之间的相似性保持知识蒸馏来提高性能。评估结果显示，在单一模型中与多个独立模块相比，流式 ASR 的字符错误率相对减少了 2.6%-5.3%，非流式 ASR 的字符错误率相对减少了 8.3%-9.7%。

Abstract

End-to-end (E2E) automatic speech recognition (ASR) can operate in two modes: streaming and non-streaming, each with its pros and cons. streaming asr processes the speech frames in real-time as it is being received, while non-→

end-to-end automatic speech recognition streaming asr non-streaming asr multi-decoder knowledge distillation

发现论文，激发创造

从非流式 ASR 编码器到流式 ASR 编码器的知识蒸馏，使用辅助非流式层

为了提高流式自动语音识别的性能，本文提出了一种从非流式模型到流式模型的逐层知识蒸馏方法，并通过自动回归预测编码机制鼓励流式模型预测未见的未来语境，实验证明该方法能显著降低错误率。

Aug, 2023

混合编码器用于语音分离和识别

该论文提出了一种基于中间地带的方法来处理多说话者语音识别，该方法既利用了情感识别模块类似于模块化方法的显式语音分离技术，又将混合语音信息直接纳入 ASR 模块，以减轻语音分离器所产生的错误传播，并且通过结合个体说话者信息的层来交换跨说话者的上下文信息。

Jun, 2023

语音识别统一流式和非流式两遍端到端模型

本文提出了一种新颖的两步方法，用于将流式和非流式端到端（E2E）语音识别统一到单个模型中，该模型采用混合 CTC /attention 架构，在编码器的 conformer 层进行修改，并且在推理时，CTC 解码器以流式方式生成 n 个最佳假设，然后通过注意力解码器进行重评分以得到最终结果，并且在 AISHELL-1 测试集上，基于提出的方法的统一模型相对于标准的非流式 transformer，实现了 5.60％的相对字符错误率（CER）降低，在流式 ASR 系统中实现了 640ms 的延迟。

Dec, 2020

双模 ASR: 统一与改进全上下文流式 ASR 模型

该研究提出了一种统一框架的双模 ASR（自动语音识别），通过权重共享和全场景 ASR 的联合训练，特别是在训练期间进行知识蒸馏，使流式 ASR 的延迟和准确性得到明显改善。该框架适用于最新的卷积和变压器 ASR 网络，并在 LibriSpeech 和 MultiDomain 数据集上进行了广泛实验和削减研究，取得了新的流式 ASR 结果。

Oct, 2020

自适应两阶段知识蒸馏缩小流式转导 ASR 和非流式转导 ASR 之间的差距

本文提出了一种自适应两阶段知识蒸馏方法，其中包括隐藏层学习和输出层学习，以缩小流式语音识别中流式和非流式转导模型的性能差距，并在 LibriSpeech 语料库中相比原始流式模型获得了 19% 的相对降低的词错误率和对第一个令牌的更快响应。

Jun, 2023

流式混淆网络语音识别

本文提出了一种新型流式自动语音识别架构，可输出混淆网络并保持有限的延迟，以满足交互式应用的需要，其 1-best 结果与可比较的 RNN-T 系统相当，而更丰富的假设集允许进行第二遍重评分，以在 LibriSpeech 任务上实现 10-20％更低的字词误差率，同时在远场语音助手任务中优于强 RNN-T 基线。

Jun, 2023

关于共同学习语音情感识别和自动语音识别的有效性和噪声稳健性

本文研究了一种联合的 ASR-SER 多任务学习方法，发现在低资源环境下，采用这种方式可通过对背景噪音的处理从而提高 ASR 词错误率和 SER 分类准确性，结果表明使得该方法产生比独立 ASR 和 SER 方法更具噪音抗干扰性的模型。

May, 2023

一种语言不可知的多语言流式本地化 ASR 系统

本文提出了一种支持流式多语言的端到端自动语音识别的模型，通过编码端点模型和一个适用于语言混合的 End-of-Utterance Joint Layer，以及使用了更高效的 Embedding 解码器，实现了低延迟和高质量的效果，可以在移动设备上实时运行。

Aug, 2022

面向设备的语音理解协商模型

本文提出了一种新颖的基于推理的端到端（E2E）口语语音理解（SLU）方法，通过在自动语音识别（ASR）的文本和音频嵌入上进行条件控制，流式传输的 ASR 模型产生第一步的假设并由第二步的自然语言理解（NLU）组件生成语义解析。

Apr, 2022

利用时间戳信息进行序列化联合流式识别和翻译

提出了一种流式 Transformer-Transducer (T-T) 模型，能够使用单个解码器联合生成多对一和一对多的转录和翻译，并引入了一种基于时间戳信息的新颖方法来有效地在流式环境中生成语音识别和语音翻译的输出。通过在 {it, es, de}->en 上进行的实验证明了我们方法的有效性，首次实现了使用单个解码器生成一对多联合输出。

Oct, 2023