利用结构化状态空间模型增强在线语音识别的构型

Sep, 2023

利用结构化状态空间模型增强在线语音识别的构型

Augmenting conformers with structured state space models for online speech recognition

Haozhe Shan, Albert Gu, Zhong Meng, Weiran Wang, Krzysztof Choromanski...

TL;DR在线语音识别中，通过将结构化状态空间序列模型（S4）与卷积相结合，可以提高神经编码器的性能并实现更低的识别错误率。

Abstract

online speech recognition, where the model only accesses context to the left, is an important and challenging use case for ASR systems. In this work, we investigate augmenting neural encoders for online ASR by in

online speech recognition neural encoders structured state-space sequence models convolutions wers

发现论文，激发创造

基于 Conformer 的鲁棒自动语音识别模型

本研究采用基于 Conformer 的声学模型解决了自动语音识别中的鲁棒性问题，并在 CHiME-4 语料库的单声道 ASR 任务中经过测试，其使用 utterance-wise 归一化和说话人自适应的方式，相比经典的 wide residual 双向长短时记忆网络，减小了 18.3% 的模型大小，训练时间减少了 79.6％且相对误差率比 WRBN 低 8.4%。

Mar, 2022

利用小型模型的多维深层结构状态空间方法进行语音增强

本文提出了一种多维结构化状态空间（S4）方法来增强语音，将多维的 S4 层进行白化变换以更好地捕捉跨频率轴的频谱依赖性，探索了几种基于 S4 的 T 和 TF 深层结构，其中，在 TF 领域中，与基于卷积层的传统 U 型模型相比，所提出的 S4 模型尺寸缩小了 78.6％，但在数据增强的情况下仍然达到了竞争性结果，具有较好的 PESQ 分数。

Jun, 2023

单声道语音增强的脉冲结构状态空间模型

使用 Spiking Structured State Space Model（Spiking-S4）可以高效地从长时间语音序列中提取干净的语音，该方法将 Spiking Neural Networks（SNN）的能效与 Structured State Space Models（S4）的长程序列建模能力相结合，具有较少的计算资源要求，与现有的人工神经网络（ANN）方法相媲美。

Sep, 2023

Conformer: 卷积增强变压器（Convolution-augmented Transformer）用于语音识别

本文提出了一种名为 Conformer 的语音识别（Automatic Speech Recognition）模型，结合了 Transformer 和卷积神经网络 (Convolution neural network) 的优点，在参数更少的情况下实现对于语音序列的局部和全局依赖的建模，并在 LibriSpeech benchmark 测试中取得了 2.1%/4.3%（未使用语言模型）和 1.9%/3.9%（使用外部语言模型）的字错率（Word Error Rate），表现超越了之前的基于 Transformer 和 CNN 的模型。

May, 2020

增强记忆的 Conformer 模型用于改进端到端长篇音频转文字识别

我们提出了在 conformer 的编码器和解码器之间添加一个可完全微分的记忆增强神经网络，用于自动语音识别。这个外部记忆可以增强长发声段的泛化性能，因为它允许系统循环地存储和检索更多信息。实验结果表明，我们提出的 Conformer-NTM 模型在长发声段上优于没有记忆的基准 conformer 模型。

Sep, 2023

针对 Conformer 转录器语音识别系统的有效紧凑上下文表示

本文提出了一种能够学习到跨话语上下文特征的紧凑的低维度的特征表示方法，并通过在先前话语的历史向量上应用特殊设计的注意力池化层，来优化了基于 Conformer-Transducer 编码器的 ASR 系统，在 1000 小时的 Gigaspeech 语音语料上进行了实验，结果表明相对于仅使用话语内部语境的基线模型，该系统达到了 0.7% 至 0.5% 的绝对词错误率的统计显着降低（相对降低了 4.3% 至 3.1%）的效果。

Jun, 2023

自洽的上下文感知转移学习器用于语音识别

我们提出了一种基于转录者的新型神经网络架构，通过增加上下文信息流来提高自动语音识别系统的准确性，特别是对于不常见的词语识别准确性的改进。我们研究了使用该新模型和 / 或与上下文语言模型浅层融合时不常见词的准确性改进，并发现两者的组合在不常见词识别准确性上具有累计增益。

Feb, 2024

通过学习音频 - 文本跨模态上下文表示实现会话语音识别

通过引入跨模态对话表示，结合预训练的语音和文本模型，扩展 Conformer 编码器 - 解码器模型，我们的方法能够提取更丰富的历史语音上下文，实现较标准 Conformer 模型相对准确度提升 8.8%（HKUST）和 23%（MagicData-RAMC）的结果。

Oct, 2023

基于 Conformer 的极端边缘计算设备上的语音识别

本文提出了一种在资源受限设备上实现高级 Conformer 基于端到端流式 ASR 系统的模型架构调整、神经网络图形转换和数值优化的方法，实现了与实时识别相比超过 5.26 倍的速度（0.19 RTF），同时最小化能源消耗并达到最新的准确性，该方法可广泛应用于其他基于变压器的无服务器 AI 应用。此外，我们提供了一个完整的理论，用于利用任何浮点精度和任何 Lp 范数数值稳定层标准化的最佳前归一化方法。

Dec, 2023

基于序列到序列模型的最先进语音识别技术

本研究通过引入多头注意力机制、使用字片段模型、同步训练、计划采样、标签平滑和最小字符错误率优化等技术手段，将 Listen Attend Spell（LAS）模型应用于语音搜索任务中，从而将错误率从 9.2% 显著降至 5.6%。在听写任务中，该模型的错误率为 4.1%，略优于传统系统的 5.0%。

Dec, 2017