基于说话人和环境的分解式自适应训练方法,用于 Conformer 语音识别系统
本文提出了一种基于特征适应和模型适应的统一说话人自适应方法,其中采用一种说话人感知的持久性记忆模型进行特征适应,并使用一种新颖的逐步修剪方法进行模型适应。在 Librispeech 数据集上的实验结果表明,相对于基线方法,在一般说话人自适应和目标说话人自适应中使用所提出的方法可带来 2.74-6.52% 的词错误率下降,并且该方法具有良好的低资源适应性能。
Oct, 2021
本文探讨了多种说话人自适应训练的方法,提出了加权简单加法这一方法,该方法可以将权重说话人信息向量添加到自我注意模块的输入中,通过在 Switchboard 300h 数据集上的实验,证明了该方法的有效性,并在先前的工作基础上提出了一种新颖的训练配方,成功地降低了模型参数数量,并在 Switchboard 300h Hub5'00 数据集上取得了 11% 的相对错误率改进。
Jun, 2022
本研究采用基于 Conformer 的声学模型解决了自动语音识别中的鲁棒性问题,并在 CHiME-4 语料库的单声道 ASR 任务中经过测试,其使用 utterance-wise 归一化和说话人自适应的方式,相比经典的 wide residual 双向长短时记忆网络,减小了 18.3% 的模型大小,训练时间减少了 79.6%且相对误差率比 WRBN 低 8.4%。
Mar, 2022
本研究旨在开发一种演讲者识别模型,该模型需要经过充分的架构和大量数据的训练,最终能够在不同的场景下得到实际应用,并且经过实验证明,采用 MFA-Conformer 模型和大数据训练配置可以使性能提高超过 20%。
Oct, 2022
本论文介绍了 Conformer-1,一种端到端的自动语音识别(ASR)模型,它是在一个包含 570k 小时的语音音频数据的广泛数据集上训练的,其中 91%是从公开来源获取的。通过在未标记的公共数据上使用强大的 Conformer RNN-T 基线模型生成伪标签,我们进行有噪声学生训练。这些伪标记数据的添加使我们的异步和实时模型在相对词错误率(WER)上分别提高了 11.5%和 24.3%。此外,由于添加了这些数据,该模型对背景噪声更具鲁棒性。本研究取得的结果表明,将伪标签的公开可用数据纳入 ASR 精度和噪声鲁棒性的改进中是一种非常有效的策略。
Apr, 2024
使用贝叶斯学习框架和变分推断优化,提高了 Transformer 神经语言模型的泛化性能和模型鲁棒性。在 Switchboard 语料库和 DementiaBank 中的实验都获得了明显的性能提升。
Feb, 2021
该研究提出了两种新型的基于特征的即时演讲者适应方法,即基于演讲者水平的方差规范化谱基础嵌入 (SBEVR) 特征和基于即时学习的隐藏单元贡献 (LHUC) 转换。实验结果显示,这两种方法在适应演讲者语音时表现出色,其中基于 SBEVR 特征的适应方式的性能优于基于模型的 LHUC 适应。
Mar, 2022
研究了预训练于 Librispeech 语料库上并经过领域适配后用于识别老年人和患有运动障碍的语音数据集的 Conformer ASR 系统的超参数自适应,证明其能够显著提高词错误率的表现。
Jun, 2023
我们提出了 CONF-TSASR,这是一种非自回归的端到端时间 - 频率域架构,用于单通道目标人说话者自动语音识别(TS-ASR)。该模型包括基于 TitaNet 的说话者嵌入模块,基于 Conformer 的掩蔽和 ASR 模块,通过联合优化这些模块来转录目标说话者的语音,忽略其他讲话者的语音。通过使用连接主义时间分类(CTC)损失进行训练,并引入一种比例不变的频谱重建损失来鼓励模型更好地将目标说话者的频谱与混合音频分离。在 WSJ0-2mix-extr(4.2%)数据集上,我们获得了最先进的目标说话者词错误率(TS-WER)。此外,我们首次报告了 WSJ0-3mix-extr(12.4%),LibriSpeech2Mix(4.2%)和 LibriSpeech3Mix(7.6%)数据集上的 TS-WER,为 TS-ASR 建立了新的基准。所提出的模型将通过 NVIDIA NeMo 工具包开源。
Aug, 2023
该论文提出了一种端到端模型,旨在改进在拥挤嘈杂环境中特定讲话者的自动语音识别(ASR)。该模型利用单通道语音增强模块将讲话者的声音与背景噪音隔离,并结合了 ASR 模块。通过这种方法,该模型能够将 ASR 的识别错误率(WER)从 80%降低到 26.4%。通常,由于数据要求的差异,这两个组件是独立调整的。然而,语音增强可能会引起降低 ASR 效率的异常情况。通过实施联合精调策略,该模型可以将单独调整中的 WER 从 26.4%降低到 14.5%。
Aug, 2023