增强记忆的 Conformer 模型用于改进端到端长篇音频转文字识别

Sep, 2023

增强记忆的 Conformer 模型用于改进端到端长篇音频转文字识别

Memory-augmented conformer for improved end-to-end long-form ASR

Carlos Carvalho, Alberto Abad

TL;DR我们提出了在 conformer 的编码器和解码器之间添加一个可完全微分的记忆增强神经网络，用于自动语音识别。这个外部记忆可以增强长发声段的泛化性能，因为它允许系统循环地存储和检索更多信息。实验结果表明，我们提出的 Conformer-NTM 模型在长发声段上优于没有记忆的基准 conformer 模型。

Abstract

conformers have recently been proposed as a promising modelling approach for automatic speech recognition (ASR), outperforming recurrent neural network-based approaches and →

conformers automatic speech recognition recurrent neural network transformers external memory

发现论文，激发创造

基于 Conformer 的鲁棒自动语音识别模型

本研究采用基于 Conformer 的声学模型解决了自动语音识别中的鲁棒性问题，并在 CHiME-4 语料库的单声道 ASR 任务中经过测试，其使用 utterance-wise 归一化和说话人自适应的方式，相比经典的 wide residual 双向长短时记忆网络，减小了 18.3% 的模型大小，训练时间减少了 79.6％且相对误差率比 WRBN 低 8.4%。

Mar, 2022

Conformer: 卷积增强变压器（Convolution-augmented Transformer）用于语音识别

本文提出了一种名为 Conformer 的语音识别（Automatic Speech Recognition）模型，结合了 Transformer 和卷积神经网络 (Convolution neural network) 的优点，在参数更少的情况下实现对于语音序列的局部和全局依赖的建模，并在 LibriSpeech benchmark 测试中取得了 2.1%/4.3%（未使用语言模型）和 1.9%/3.9%（使用外部语言模型）的字错率（Word Error Rate），表现超越了之前的基于 Transformer 和 CNN 的模型。

May, 2020

使用 Conformers 的端到端音视频语音识别

本文提出一种基于混合 CTC / 注意力模型的 ResNet-18 和卷积扩充变压器 (Conformer)，可以进行端到端的训练。在语音识别方面取得了具有突破性的进展，实现了最先进效果。

Feb, 2021

HyperConformer：用于高效语音识别的多头超级混合器

本文介绍了一种名为 HyperConformer 的语音识别结构，它通过引入高效的 HyperMixer 机制，实现了对于长输入序列较为经济的全局交互建模，并在可获得的训练数据限制下达到与或高于传统结构 Conformer 相似的识别表现。

May, 2023

针对 Conformer 转录器语音识别系统的有效紧凑上下文表示

本文提出了一种能够学习到跨话语上下文特征的紧凑的低维度的特征表示方法，并通过在先前话语的历史向量上应用特殊设计的注意力池化层，来优化了基于 Conformer-Transducer 编码器的 ASR 系统，在 1000 小时的 Gigaspeech 语音语料上进行了实验，结果表明相对于仅使用话语内部语境的基线模型，该系统达到了 0.7% 至 0.5% 的绝对词错误率的统计显着降低（相对降低了 4.3% 至 3.1%）的效果。

Jun, 2023

高效的构象器：渐进式下采样和分组注意力用于自动语音识别

本文介绍了如何通过引入逐渐下采样的机制和新颖的分组注意力机制将 Conformer 架构的复杂性降至与有限计算预算相适应的情况。在 LibriSpeech 数据集上进行的实验说明，该架构相比于 Conformer 速度更快，性能更好，且包含更少的参数。

Aug, 2021

长篇语音识别的端到端模型比较

本研究调查和提高端到端模型在长篇转录上的性能。实验比较了不同的端到端模型并证明 RNN-T 模型在这种场景下比注意力模型更加鲁棒，并且使用限制注意力单调性和分段解码算法等两种改进方法，将注意力模型的性能极大提升，达到了和 RNN-T 模型相当的水平。

Nov, 2019

用于对话建模的状态性记忆增强变压器

本研究提出一种新的记忆增强型 Transformer 模型，该模型可在不影响对话历史信息的情况下适应长序列处理，并且在相对于其他预训练 Transformer 模型存在着更高的效率和性能。

Sep, 2022

利用结构化状态空间模型增强在线语音识别的构型

在线语音识别中，通过将结构化状态空间序列模型（S4）与卷积相结合，可以提高神经编码器的性能并实现更低的识别错误率。

Sep, 2023

自洽的上下文感知转移学习器用于语音识别

我们提出了一种基于转录者的新型神经网络架构，通过增加上下文信息流来提高自动语音识别系统的准确性，特别是对于不常见的词语识别准确性的改进。我们研究了使用该新模型和 / 或与上下文语言模型浅层融合时不常见词的准确性改进，并发现两者的组合在不常见词识别准确性上具有累计增益。

Feb, 2024