基于 Conformer 的鲁棒自动语音识别模型
本论文介绍了 Conformer-1,一种端到端的自动语音识别(ASR)模型,它是在一个包含 570k 小时的语音音频数据的广泛数据集上训练的,其中 91%是从公开来源获取的。通过在未标记的公共数据上使用强大的 Conformer RNN-T 基线模型生成伪标签,我们进行有噪声学生训练。这些伪标记数据的添加使我们的异步和实时模型在相对词错误率(WER)上分别提高了 11.5%和 24.3%。此外,由于添加了这些数据,该模型对背景噪声更具鲁棒性。本研究取得的结果表明,将伪标签的公开可用数据纳入 ASR 精度和噪声鲁棒性的改进中是一种非常有效的策略。
Apr, 2024
本文提出了一种名为 Conformer 的语音识别(Automatic Speech Recognition)模型,结合了 Transformer 和卷积神经网络 (Convolution neural network) 的优点,在参数更少的情况下实现对于语音序列的局部和全局依赖的建模,并在 LibriSpeech benchmark 测试中取得了 2.1%/4.3%(未使用语言模型)和 1.9%/3.9%(使用外部语言模型)的字错率(Word Error Rate),表现超越了之前的基于 Transformer 和 CNN 的模型。
May, 2020
我们提出了在 conformer 的编码器和解码器之间添加一个可完全微分的记忆增强神经网络,用于自动语音识别。这个外部记忆可以增强长发声段的泛化性能,因为它允许系统循环地存储和检索更多信息。实验结果表明,我们提出的 Conformer-NTM 模型在长发声段上优于没有记忆的基准 conformer 模型。
Sep, 2023
通过重新审视 Conformer 架构的设计选择,我们提出了 Squeezeformer 模型,展示其在同一训练方案下一致优于当前最先进的 ASR 模型,取得了 7.5%,6.5%和 6.0%的字错率(WER)结果,比具有相同数量的 FLOPs 的 Conformer-CTC 更好 3.1%,1.4%和 0.6%。
Jun, 2022
本文提出了一种在资源受限设备上实现高级 Conformer 基于端到端流式 ASR 系统的模型架构调整、神经网络图形转换和数值优化的方法,实现了与实时识别相比超过 5.26 倍的速度(0.19 RTF),同时最小化能源消耗并达到最新的准确性,该方法可广泛应用于其他基于变压器的无服务器 AI 应用。此外,我们提供了一个完整的理论,用于利用任何浮点精度和任何 Lp 范数数值稳定层标准化的最佳前归一化方法。
Dec, 2023
本文探讨了多种说话人自适应训练的方法,提出了加权简单加法这一方法,该方法可以将权重说话人信息向量添加到自我注意模块的输入中,通过在 Switchboard 300h 数据集上的实验,证明了该方法的有效性,并在先前的工作基础上提出了一种新颖的训练配方,成功地降低了模型参数数量,并在 Switchboard 300h Hub5'00 数据集上取得了 11% 的相对错误率改进。
Jun, 2022
我们提出了 CONF-TSASR,这是一种非自回归的端到端时间 - 频率域架构,用于单通道目标人说话者自动语音识别(TS-ASR)。该模型包括基于 TitaNet 的说话者嵌入模块,基于 Conformer 的掩蔽和 ASR 模块,通过联合优化这些模块来转录目标说话者的语音,忽略其他讲话者的语音。通过使用连接主义时间分类(CTC)损失进行训练,并引入一种比例不变的频谱重建损失来鼓励模型更好地将目标说话者的频谱与混合音频分离。在 WSJ0-2mix-extr(4.2%)数据集上,我们获得了最先进的目标说话者词错误率(TS-WER)。此外,我们首次报告了 WSJ0-3mix-extr(12.4%),LibriSpeech2Mix(4.2%)和 LibriSpeech3Mix(7.6%)数据集上的 TS-WER,为 TS-ASR 建立了新的基准。所提出的模型将通过 NVIDIA NeMo 工具包开源。
Aug, 2023
本论文提出了一种新的压缩策略,利用结构剪枝和知识蒸馏来减小 Conformer 模型的模型大小和推理成本,同时保持高识别性能。该方法优于所有剪枝基线,在 LibriSpeech 基准测试中实现了 50%的模型大小减少和 28%的推理成本减少,同时最小化了性能损失。
May, 2023
我们提出了一种基于转录者的新型神经网络架构,通过增加上下文信息流来提高自动语音识别系统的准确性,特别是对于不常见的词语识别准确性的改进。我们研究了使用该新模型和 / 或与上下文语言模型浅层融合时不常见词的准确性改进,并发现两者的组合在不常见词识别准确性上具有累计增益。
Feb, 2024