使用自监督转换器的通用语音语音语言表示
本文提出了一种自监督的音频表征学习方法并将其应用于多种非语音音频任务,这种自监督的预训练可以将标记数据需求减少三分之二,并在 AudioSet 基准测试中通过声音自主训练实现了 0.415 的平均平均精度(mAP)得分,在多个下游任务中,我们的 fine-tuned conformers 也超越或匹配以往以监督方式预训练的系统的性能。
Oct, 2021
本研究基于知识蒸馏,公开发布了一组语音模型,这些模型在公共数据上进行了精简和训练,大小不到原始模型的 15%,并在 NOSS 基准测试上取得了超过 90% 的准确率。
Mar, 2022
本文提出了一种能够学习到跨话语上下文特征的紧凑的低维度的特征表示方法,并通过在先前话语的历史向量上应用特殊设计的注意力池化层,来优化了基于 Conformer-Transducer 编码器的 ASR 系统,在 1000 小时的 Gigaspeech 语音语料上进行了实验,结果表明相对于仅使用话语内部语境的基线模型,该系统达到了 0.7% 至 0.5% 的绝对词错误率的统计显着降低(相对降低了 4.3% 至 3.1%) 的效果。
Jun, 2023
本论文介绍了 Conformer-1,一种端到端的自动语音识别(ASR)模型,它是在一个包含 570k 小时的语音音频数据的广泛数据集上训练的,其中 91%是从公开来源获取的。通过在未标记的公共数据上使用强大的 Conformer RNN-T 基线模型生成伪标签,我们进行有噪声学生训练。这些伪标记数据的添加使我们的异步和实时模型在相对词错误率(WER)上分别提高了 11.5%和 24.3%。此外,由于添加了这些数据,该模型对背景噪声更具鲁棒性。本研究取得的结果表明,将伪标签的公开可用数据纳入 ASR 精度和噪声鲁棒性的改进中是一种非常有效的策略。
Apr, 2024
本文通过采用 Conformer 架构,在多语言预训练模型中扩展了以往的自监督方法,我们发现预训练的语音模型最佳地在底层编码语言的区分信息。进一步地,我们证明了从这些层获取的嵌入对于分类未见过的语言和不同的声学环境具有显著的鲁棒性,无需额外的训练。在 VoxLingua107 数据集上微调预训练的 Conformer 模型后,我们实现了类似于语言识别当前最先进系统的结果。此外,我们的模型参数比当前系统少了五倍,并通过 NVIDIA NeMo 工具包开源了该模型。
Nov, 2022
本文介绍了我们在 ICML 表达性声学竞赛中使用的建模方法,其中采用了多种卷积神经网络模型,并且发现 Conformer 模型在该任务中存在潜力,并提出在情感表达、年龄预测和来源国家等子任务方面,使用单任务模型效果更好,质疑了该问题是否真正从多任务的设置中受益。
Jun, 2022
本研究采用基于 Conformer 的声学模型解决了自动语音识别中的鲁棒性问题,并在 CHiME-4 语料库的单声道 ASR 任务中经过测试,其使用 utterance-wise 归一化和说话人自适应的方式,相比经典的 wide residual 双向长短时记忆网络,减小了 18.3% 的模型大小,训练时间减少了 79.6%且相对误差率比 WRBN 低 8.4%。
Mar, 2022
提出采用线性视觉前端结合更大 Conformer 编码器来实现更低的延迟,更高的内存效率和更好的 WER 性能,从而达到新的 TED LRS3 数据集上的视觉语音识别的最佳性能。
Feb, 2023
我们提出了一种基于转录者的新型神经网络架构,通过增加上下文信息流来提高自动语音识别系统的准确性,特别是对于不常见的词语识别准确性的改进。我们研究了使用该新模型和 / 或与上下文语言模型浅层融合时不常见词的准确性改进,并发现两者的组合在不常见词识别准确性上具有累计增益。
Feb, 2024
本研究旨在开发一种演讲者识别模型,该模型需要经过充分的架构和大量数据的训练,最终能够在不同的场景下得到实际应用,并且经过实验证明,采用 MFA-Conformer 模型和大数据训练配置可以使性能提高超过 20%。
Oct, 2022