语音转文本非自回归建模的比较研究

Oct, 2021

语音转文本非自回归建模的比较研究

A Comparative Study on Non-Autoregressive Modelings for Speech-to-Text Generation

Yosuke Higuchi, Nanxin Chen, Yuya Fujita, Hirofumi Inaguma, Tatsuya Komatsu...

TL;DR本文对不同的无自回归（NAR）建模方法进行了比较性研究，实验证明了 NAR 模型相较自回归基线的精度降低代价下，可以同时在序列中生成多个输出，具有在实时应用中优足的潜力，在自动语音识别领域的性能差距上得到了一些有趣的发现，并展示了结合这些技术来进一步提高精度并应用于无自回归端到端语音翻译的能力。

Abstract

Non-autoregressive (NAR) models simultaneously generate multiple outputs in a sequence, which significantly reduces the inference speed at the cost of accuracy drop compared to autoregressive baselines. Showing great potential for real-time applications, an increasing number of NAR models have been explored in different fields to mitigate the performance gap

non-autoregressive models sequence generation automatic speech recognition performance comparison end-to-end modeling

发现论文，激发创造

非自回归模型的序列生成研究

该研究通过提出一种分析模型来表征 Non-autoregressive 模型生成不同序列任务的难易程度，并发现知识蒸馏和源 - 目标对齐技术可以帮助提升 Non-autoregressive 模型的准确性，减少目标序列的依赖性。

Apr, 2020

神经机器翻译及其扩展中的非自回归生成调查

本文对不自回归生成（NAR）进行了系统的调查，并比较和讨论了不同方面的各种非自回归翻译（NAT）模型，包括数据处理、建模方法、训练标准、解码算法以及受到预训练模型的好处，同时简要回顾了 NAR 模型在机器翻译以外的其他应用，并讨论了未来探索的潜在方向。

Apr, 2022

非自回归机器翻译：速度不像看起来那么快

本研究对非自回归模型及自回归模型在机器翻译中的效率进行了探究，并提出了对非自回归模型的进一步实验和评测。

May, 2022

基于标签上下文的半自回归流式自动语音识别

提出了一种流式的 “半自回归” ASR 模型，通过在上一个片段中引入先前块中发出的标签作为额外上下文，使用语言模型（LM）子网络，以及引入了一种新的贪婪解码算法来解决块边界附近的插入和删除错误，提高了语音处理的准确性和响应速度。

Sep, 2023

一种基于 EM 方法的非自回归条件序列生成方法

本文提出的一种新方法使用统一的 EM 框架共同优化 AR 和 NAR 模型，以有效地引导系统消除输出序列中的多模态，评估结果表明，该方法在机器翻译任务上实现了具有竞争力的性能，同时显著减少了推理延迟。

Jun, 2020

最近邻非自回归文本生成

该研究提出一种新的训练策略，使用最近邻作为 NAR 解码器的初始状态，并进行迭代编辑来改进文本生成质量，结果表明该方法在机器翻译和数据到文本任务上均获得了较高的翻译质量和更少的解码迭代次数。

Aug, 2022

使用单语数据提高非自回归神经机器翻译的性能

利用大规模单语语料，基于知识蒸馏的方式提升非自回归神经机器翻译模型的效果，并成功地在 WMT14 En-De 和 WMT16 En-Ro 新闻翻译任务上验证了模型的性能提升。

May, 2020

并联自回归重评分的非自回归端到端语音翻译

本文提出了一种基于非自回归模型 (NAR) 的高效端到端语音翻译 (E2E-ST) 系统 ——Orthros，使用条件掩蔽语言模型 (CMLM) 和连接主义时间分类 (CTC) 模型作为 NAR 解码器，并采用两种训练方法来增强 CMLM 解码器。实验表明，在三个基准数据集及六个语言方向上，Orthros-CTC 以 Conformer 编码器为基础的模型在保证翻译质量的前提下，将解码速度提高了 3.63 倍。

Sep, 2021

Paraformer：用于非自回归端到端语音识别的快速准确并行 Transformer

为了加速端到端语音识别中的推理，本文提出了一个名为 Paraformer 的快速且精确的并行 Transformer，其能够通过利用一种基于连续积分和火的预测器来预测令牌数量并生成隐藏变量，并使用瞥见语言模型（GLM）实现语义嵌入，最后设计了一种策略来生成负采样以进一步提高性能。在多项实验中，Paraformer 能够以超过 10 倍的加速在公共 AISHELL-1、AISHELL-2 基准和工业级 20,000 小时任务中实现与最先进的 AR Transformer 相当的性能。

Jun, 2022

基于 Transformer 的语音自动识别模型，考虑词汇语义的非自回归模型

提出了一种基于 Transformer 的、有词汇感知的自动语音识别框架，可以同时训练语音和文本数据，并松弛条件独立性，实现更快的解码速度和较好的性能。实验结果表明，该模型比其他最近提出的非自回归 ASR 模型更具优越性，并且比大多数非自回归 ASR 模型更为简洁，解码速度是经典自回归模型的 58 倍。

May, 2023