Paraformer：用于非自回归端到端语音识别的快速准确并行 Transformer

Jun, 2022

Paraformer：用于非自回归端到端语音识别的快速准确并行 Transformer

Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition

Zhifu Gao, Shiliang Zhang, Ian McLoughlin, Zhijie Yan

TL;DR为了加速端到端语音识别中的推理，本文提出了一个名为 Paraformer 的快速且精确的并行 Transformer，其能够通过利用一种基于连续积分和火的预测器来预测令牌数量并生成隐藏变量，并使用瞥见语言模型（GLM）实现语义嵌入，最后设计了一种策略来生成负采样以进一步提高性能。在多项实验中，Paraformer 能够以超过 10 倍的加速在公共 AISHELL-1、AISHELL-2 基准和工业级 20,000 小时任务中实现与最先进的 AR Transformer 相当的性能。

Abstract

transformers have recently dominated the asr field. Although able to yield good performance, they involve an autoregressive (AR) decoder to generate tokens one by one, which is computationally inefficient. To spe

transformers asr non-autoregressive paraformer speedup

发现论文，激发创造

听写填空：用于语音识别的非自回归变压器

本研究提出了两种不自回归变换器结构以解决自动语音识别中的推理计算成本问题，在训练期间，输入的标记被特殊的掩码标记随机替换，网络需要考虑未被掩盖的上下文和语音输入以预测与那些掩码标记相对应的标记。结果表明，该模型能够支持不同的解码策略，特别是在 Aishell 上，该方法的性能超过了 Kaldi ASR 系统，与最先进的自回归变换器的性能相当，而且速度提高了 7 倍。

Nov, 2019

语音转文本非自回归建模的比较研究

本文对不同的无自回归（NAR）建模方法进行了比较性研究，实验证明了 NAR 模型相较自回归基线的精度降低代价下，可以同时在序列中生成多个输出，具有在实时应用中优足的潜力，在自动语音识别领域的性能差距上得到了一些有趣的发现，并展示了结合这些技术来进一步提高精度并应用于无自回归端到端语音翻译的能力。

Oct, 2021

并联自回归重评分的非自回归端到端语音翻译

本文提出了一种基于非自回归模型 (NAR) 的高效端到端语音翻译 (E2E-ST) 系统 ——Orthros，使用条件掩蔽语言模型 (CMLM) 和连接主义时间分类 (CTC) 模型作为 NAR 解码器，并采用两种训练方法来增强 CMLM 解码器。实验表明，在三个基准数据集及六个语言方向上，Orthros-CTC 以 Conformer 编码器为基础的模型在保证翻译质量的前提下，将解码速度提高了 3.63 倍。

Sep, 2021

非自回归神经文本转语音

本文提出 ParaNet，一种非自回归 seq2seq 模型，用于将文本转换为频谱图，并通过各种平行神经音色器进行了测试，其中包括一种基于 VAE 的方法，用于从头开始训练反自回归流（IAF）平行音色器。

May, 2019

非自回归模型的序列生成研究

该研究通过提出一种分析模型来表征 Non-autoregressive 模型生成不同序列任务的难易程度，并发现知识蒸馏和源 - 目标对齐技术可以帮助提升 Non-autoregressive 模型的准确性，减少目标序列的依赖性。

Apr, 2020

半自回归神经机器翻译

本论文提出一种用于快速序列生成的新型模型：半自回归 Transformer (SAT)，该模型在保持全局自回归属性的同时减轻了本地自回归属性，从而能够在每个时间步骤同时产生多个连续的词。在英德翻译和中英翻译任务上进行的实验证明，SAT 实现了翻译质量和解码速度之间的良好平衡。

Aug, 2018

基于 Transformer 的语音自动识别模型，考虑词汇语义的非自回归模型

提出了一种基于 Transformer 的、有词汇感知的自动语音识别框架，可以同时训练语音和文本数据，并松弛条件独立性，实现更快的解码速度和较好的性能。实验结果表明，该模型比其他最近提出的非自回归 ASR 模型更具优越性，并且比大多数非自回归 ASR 模型更为简洁，解码速度是经典自回归模型的 58 倍。

May, 2023

非自回归神经机器翻译的扫视变换器

提出了一种基于 Glancing Language Model 的机器翻译方法，通过单次并行解码，实现了高效率、高质量的机器翻译效果，使得单次非自回归方法的性能优于以往所有方法，并且与 Transformer 相当，缩小了 0.25-0.9 BLEU 分数差距。

Aug, 2020

非自回归机器翻译：速度不像看起来那么快

本研究对非自回归模型及自回归模型在机器翻译中的效率进行了探究，并提出了对非自回归模型的进一步实验和评测。

May, 2022

神经机器翻译及其扩展中的非自回归生成调查

本文对不自回归生成（NAR）进行了系统的调查，并比较和讨论了不同方面的各种非自回归翻译（NAT）模型，包括数据处理、建模方法、训练标准、解码算法以及受到预训练模型的好处，同时简要回顾了 NAR 模型在机器翻译以外的其他应用，并讨论了未来探索的潜在方向。

Apr, 2022