改进训练配方用于一个稳健的基于 Conformer 的混合模型

Jun, 2022

改进训练配方用于一个稳健的基于 Conformer 的混合模型

Improving the Training Recipe for a Robust Conformer-based Hybrid Model

Mohammad Zeineldeen, Jingjing Xu, Christoph Lüscher, Ralf Schlüter, Hermann Ney

TL;DR本文探讨了多种说话人自适应训练的方法，提出了加权简单加法这一方法，该方法可以将权重说话人信息向量添加到自我注意模块的输入中，通过在 Switchboard 300h 数据集上的实验，证明了该方法的有效性，并在先前的工作基础上提出了一种新颖的训练配方，成功地降低了模型参数数量，并在 Switchboard 300h Hub5'00 数据集上取得了 11% 的相对错误率改进。

Abstract

speaker adaptation is important to build robust automatic speech recognition (ASR) systems. In this work, we investigate various methods for speaker adaptive training (SAT) based on →

speaker adaptation automatic speech recognition feature-space approaches conformer-based acoustic model weighted-simple-add

发现论文，激发创造

基于 Conformer 的鲁棒自动语音识别模型

本研究采用基于 Conformer 的声学模型解决了自动语音识别中的鲁棒性问题，并在 CHiME-4 语料库的单声道 ASR 任务中经过测试，其使用 utterance-wise 归一化和说话人自适应的方式，相比经典的 wide residual 双向长短时记忆网络，减小了 18.3% 的模型大小，训练时间减少了 79.6％且相对误差率比 WRBN 低 8.4%。

Mar, 2022

改进和分析用于 ASR 的神经说话人嵌入

本文研究了将神经说话者嵌入用于一个 ASR 系统，并通过基于 Conformer 的混合 HMM ASR 系统，在使用加权简单加法（Weighted-Simple-Add）集成方法时，展示了改进的嵌入提取流程，通过比较和分析不同的说话者嵌入来获得声学模型的改进，最终将最佳的 Conformer-based 混合 ASR 系统与说话者嵌入结合起来，获得了 9.0％的 WER 并在 Hub5'00 和 Hub5'01 上进行训练。

Jan, 2023

基于说话人和环境的分解式自适应训练方法，用于 Conformer 语音识别系统

本文提出了一种新的基于贝叶斯因式分解的说话人和环境自适应训练和测试方法，用于 Conformer ASR 模型，实验结果表明，该方法在 WHAM 噪声下的 Switchboard 数据中优于基线模型和仅适配说话人标签的 Conformer 模型，可以实现快速适应无见说话人和环境条件。

Jun, 2023

面向语音识别的统一说话人适应方法

本文提出了一种基于特征适应和模型适应的统一说话人自适应方法，其中采用一种说话人感知的持久性记忆模型进行特征适应，并使用一种新颖的逐步修剪方法进行模型适应。在 Librispeech 数据集上的实验结果表明，相对于基线方法，在一般说话人自适应和目标说话人自适应中使用所提出的方法可带来 2.74-6.52% 的词错误率下降，并且该方法具有良好的低资源适应性能。

Oct, 2021

英语会话语音识别的极限探讨

本论文通过改进优化器、使用说话者向量嵌入和替代的语音表示，以及采用概率比率方法补偿解码模型，成功降低了 LSTM 系统在 Switchboard-300 上相对识别误差 4%，并在 Hub5'00 的 SWB 和 CHM 部分报告了 5.9% 和 11.5% 的字误率，并在 Switchboard-300 上实现了新的最佳结果，同时探讨了 conformer 和更先进的自注意力语言模型及其对现有性能的贡献。

May, 2021

Conformer-1：通过大规模半监督引导实现鲁棒性自动语音识别

本论文介绍了 Conformer-1，一种端到端的自动语音识别（ASR）模型，它是在一个包含 570k 小时的语音音频数据的广泛数据集上训练的，其中 91％是从公开来源获取的。通过在未标记的公共数据上使用强大的 Conformer RNN-T 基线模型生成伪标签，我们进行有噪声学生训练。这些伪标记数据的添加使我们的异步和实时模型在相对词错误率（WER）上分别提高了 11.5％和 24.3％。此外，由于添加了这些数据，该模型对背景噪声更具鲁棒性。本研究取得的结果表明，将伪标签的公开可用数据纳入 ASR 精度和噪声鲁棒性的改进中是一种非常有效的策略。

Apr, 2024

基于 Conformer 的单声道音频目标说话人自动语音识别

我们提出了 CONF-TSASR，这是一种非自回归的端到端时间 - 频率域架构，用于单通道目标人说话者自动语音识别（TS-ASR）。该模型包括基于 TitaNet 的说话者嵌入模块，基于 Conformer 的掩蔽和 ASR 模块，通过联合优化这些模块来转录目标说话者的语音，忽略其他讲话者的语音。通过使用连接主义时间分类（CTC）损失进行训练，并引入一种比例不变的频谱重建损失来鼓励模型更好地将目标说话者的频谱与混合音频分离。在 WSJ0-2mix-extr（4.2％）数据集上，我们获得了最先进的目标说话者词错误率（TS-WER）。此外，我们首次报告了 WSJ0-3mix-extr（12.4％），LibriSpeech2Mix（4.2％）和 LibriSpeech3Mix（7.6％）数据集上的 TS-WER，为 TS-ASR 建立了新的基准。所提出的模型将通过 NVIDIA NeMo 工具包开源。

Aug, 2023

利用结构化状态空间模型增强在线语音识别的构型

在线语音识别中，通过将结构化状态空间序列模型（S4）与卷积相结合，可以提高神经编码器的性能并实现更低的识别错误率。

Sep, 2023

Conformer: 卷积增强变压器（Convolution-augmented Transformer）用于语音识别

本文提出了一种名为 Conformer 的语音识别（Automatic Speech Recognition）模型，结合了 Transformer 和卷积神经网络 (Convolution neural network) 的优点，在参数更少的情况下实现对于语音序列的局部和全局依赖的建模，并在 LibriSpeech benchmark 测试中取得了 2.1%/4.3%（未使用语言模型）和 1.9%/3.9%（使用外部语言模型）的字错率（Word Error Rate），表现超越了之前的基于 Transformer 和 CNN 的模型。

May, 2020

HyperConformer：用于高效语音识别的多头超级混合器

本文介绍了一种名为 HyperConformer 的语音识别结构，它通过引入高效的 HyperMixer 机制，实现了对于长输入序列较为经济的全局交互建模，并在可获得的训练数据限制下达到与或高于传统结构 Conformer 相似的识别表现。

May, 2023