通过非自回归模型和 BERT 的跨模态知识转移实现快速端到端语音识别

Feb, 2021

通过非自回归模型和 BERT 的跨模态知识转移实现快速端到端语音识别

Fast End-to-End Speech Recognition via Non-Autoregressive Models and Cross-Modal Knowledge Transferring from BERT

Ye Bai, Jiangyan Yi, Jianhua Tao, Zhengkun Tian, Zhengqi Wen...

TL;DR提出了一种非自回归语音识别模型 ——LASO，利用注意力机制，位置关联总结器，自注意机制等，把语音识别转化为逐位置分类的问题，并提供了跨模态迁移学习方法来提高性能。

Abstract

Attention-based encoder-decoder (AED) models have achieved promising performance in speech recognition. However, because the decoder predicts text tokens (such as characters or words) in an autoregressive manner, it is difficult for an AED model to predict all tokens in parallel. This makes the inference speed relatively slow. We believe that because the enc

attention-based model non-autoregressive speech recognition position dependent summarizer self-attention mechanism cross-modal transfer learning

发现论文，激发创造

基于序列到序列模型的最先进语音识别技术

本研究通过引入多头注意力机制、使用字片段模型、同步训练、计划采样、标签平滑和最小字符错误率优化等技术手段，将 Listen Attend Spell（LAS）模型应用于语音搜索任务中，从而将错误率从 9.2% 显著降至 5.6%。在听写任务中，该模型的错误率为 4.1%，略优于传统系统的 5.0%。

Dec, 2017

基于 Transformer 的语音自动识别模型，考虑词汇语义的非自回归模型

提出了一种基于 Transformer 的、有词汇感知的自动语音识别框架，可以同时训练语音和文本数据，并松弛条件独立性，实现更快的解码速度和较好的性能。实验结果表明，该模型比其他最近提出的非自回归 ASR 模型更具优越性，并且比大多数非自回归 ASR 模型更为简洁，解码速度是经典自回归模型的 58 倍。

May, 2023

针对端到端语音识别和理解优化语音和语言潜空间的对齐

本文提出引用对齐器和模态切换训练来更好地对齐语音和文本潜在空间，实验结果在 Librispeech ASR 任务和 SNIPS 槽填充任务上都表现出了显著的性能提升。

Oct, 2021

一种基于注意力机制的在线语音识别模型

本文旨在通过采用延迟控制的双向结构和自适应单调分块注意力机制来消除全局软注意机制和双向编码器对实时语音识别的阻碍，并提出了两种方法来缓解两种方法结合时的性能下降，从而成功地获得了一个在线的 LAS 模型 LC-AMoChA。

Nov, 2018

并联自回归重评分的非自回归端到端语音翻译

本文提出了一种基于非自回归模型 (NAR) 的高效端到端语音翻译 (E2E-ST) 系统 ——Orthros，使用条件掩蔽语言模型 (CMLM) 和连接主义时间分类 (CTC) 模型作为 NAR 解码器，并采用两种训练方法来增强 CMLM 解码器。实验表明，在三个基准数据集及六个语言方向上，Orthros-CTC 以 Conformer 编码器为基础的模型在保证翻译质量的前提下，将解码速度提高了 3.63 倍。

Sep, 2021

大型预训练语言模型向端到端语音识别器的知识转移

本文提出了一种方法，通过从大规模语言模型的嵌入向量获取语义知识来缓解需要耗费大量成本的转录训练的问题，并扩展了注意力机制的解码器和神经音响模式的解码器，以实现错误率的降低。

Feb, 2022

基于决策模型的双通道端到端语音识别

本篇文章探讨了使用 deliberation network 既关注声学特征又关注第一步文本假说的方法来提高两步叠加模型在 ASR 中性能的优化，经过 Google Voice Search 的比较实验，正确率提高了 12%（相对于 LAS rescoring），在专有名词测试集上，提高了 23%。与传统大模型相比，最好的模型在 VS 上表现要好 21%。

Mar, 2020

基于混合注意力的编码器 - 解码器模型用于高效语言模型适应

提出了一种新的混合注意力编码器 - 解码器（HAED）语音识别模型，通过分离声学模型和语言模型，以保留传统混合自动语音识别系统的模块化，实现了对传统基于文本的语言模型自适应技术的使用，从而在相对于纯 AED 模型在领域外文本数据进行语言模型自适应时实现了 21% 的词错误率（WER）改进，并且在一般测试集上只有微小的词错误率（WER）退化。

Sep, 2023

FastLTS: 无自回归端到端无约束唇语到语音合成

提出了一种基于 transformer 的视觉前端的快速非自回归模型 FastLTS，可以从任意姿态和词汇的肢体语言视频中进行高质量音频合成，比当前的自回归模型在 3 秒输入序列上实现了 19.76 倍的速度提升，并获得了更好的音频质量。

Jul, 2022

将解码与知识蒸馏并行进行：从语言模型到端到端语音识别的有效知识蒸馏

通过使用中间层和最终层，本研究提出了一种将 BERT 教师模型的知识蒸馏到自动语音识别模型中的新方法。实验证明，使用中间层作为蒸馏目标可以更有效地将语言模型知识蒸馏到较低的网络层，从而实现比外部语言模型的浅层融合更好的识别准确性，同时保持了快速并行解码。

Jan, 2024