使用自监督转换器的通用语音语音语言表示

Oct, 2021

使用自监督转换器的通用语音语音语言表示

Universal Paralinguistic Speech Representations Using Self-Supervised Conformers

Joel Shor, Aren Jansen, Wei Han, Daniel Park, Yu Zhang

TL;DR本研究介绍了一种基于 Conformer 架构的自我监督训练的优秀的全语境表示法，应用于多元语音任务，分析了上下文窗口的大小并证明了小窗口仍能取得接近最优表现。

Abstract

Many speech applications require understanding aspects beyond the words being spoken, such as recognizing emotion, detecting whether the speaker is wearing a mask, or distinguishing real from synthetic speech. In this work, we introduce a new state-of-the-art →

speech applications paralinguistic representation conformer-based architecture linear classifiers context-window size

发现论文，激发创造

基于 Conformer 的自监督学习用于非语音音频任务

本文提出了一种自监督的音频表征学习方法并将其应用于多种非语音音频任务，这种自监督的预训练可以将标记数据需求减少三分之二，并在 AudioSet 基准测试中通过声音自主训练实现了 0.415 的平均平均精度（mAP）得分，在多个下游任务中，我们的 fine-tuned conformers 也超越或匹配以往以监督方式预训练的系统的性能。

Oct, 2021

TRILLsson: 通用语音语调语言特征提取

本研究基于知识蒸馏，公开发布了一组语音模型，这些模型在公共数据上进行了精简和训练，大小不到原始模型的 15％，并在 NOSS 基准测试上取得了超过 90% 的准确率。

Mar, 2022

针对 Conformer 转录器语音识别系统的有效紧凑上下文表示

本文提出了一种能够学习到跨话语上下文特征的紧凑的低维度的特征表示方法，并通过在先前话语的历史向量上应用特殊设计的注意力池化层，来优化了基于 Conformer-Transducer 编码器的 ASR 系统，在 1000 小时的 Gigaspeech 语音语料上进行了实验，结果表明相对于仅使用话语内部语境的基线模型，该系统达到了 0.7% 至 0.5% 的绝对词错误率的统计显着降低（相对降低了 4.3% 至 3.1%）的效果。

Jun, 2023

Conformer-1：通过大规模半监督引导实现鲁棒性自动语音识别

本论文介绍了 Conformer-1，一种端到端的自动语音识别（ASR）模型，它是在一个包含 570k 小时的语音音频数据的广泛数据集上训练的，其中 91％是从公开来源获取的。通过在未标记的公共数据上使用强大的 Conformer RNN-T 基线模型生成伪标签，我们进行有噪声学生训练。这些伪标记数据的添加使我们的异步和实时模型在相对词错误率（WER）上分别提高了 11.5％和 24.3％。此外，由于添加了这些数据，该模型对背景噪声更具鲁棒性。本研究取得的结果表明，将伪标签的公开可用数据纳入 ASR 精度和噪声鲁棒性的改进中是一种非常有效的策略。

Apr, 2024

意外学习者：多语言自监督模型中的口语识别

本文通过采用 Conformer 架构，在多语言预训练模型中扩展了以往的自监督方法，我们发现预训练的语音模型最佳地在底层编码语言的区分信息。进一步地，我们证明了从这些层获取的嵌入对于分类未见过的语言和不同的声学环境具有显著的鲁棒性，无需额外的训练。在 VoxLingua107 数据集上微调预训练的 Conformer 模型后，我们实现了类似于语言识别当前最先进系统的结果。此外，我们的模型参数比当前系统少了五倍，并通过 NVIDIA NeMo 工具包开源了该模型。

Nov, 2022

使用 ResNets 和预训练语用学习模型的多任务声音爆发建模

本文介绍了我们在 ICML 表达性声学竞赛中使用的建模方法，其中采用了多种卷积神经网络模型，并且发现 Conformer 模型在该任务中存在潜力，并提出在情感表达、年龄预测和来源国家等子任务方面，使用单任务模型效果更好，质疑了该问题是否真正从多任务的设置中受益。

Jun, 2022

基于 Conformer 的鲁棒自动语音识别模型

本研究采用基于 Conformer 的声学模型解决了自动语音识别中的鲁棒性问题，并在 CHiME-4 语料库的单声道 ASR 任务中经过测试，其使用 utterance-wise 归一化和说话人自适应的方式，相比经典的 wide residual 双向长短时记忆网络，减小了 18.3% 的模型大小，训练时间减少了 79.6％且相对误差率比 WRBN 低 8.4%。

Mar, 2022

视觉语音识别只需拟态

提出采用线性视觉前端结合更大 Conformer 编码器来实现更低的延迟，更高的内存效率和更好的 WER 性能，从而达到新的 TED LRS3 数据集上的视觉语音识别的最佳性能。

Feb, 2023

自洽的上下文感知转移学习器用于语音识别

我们提出了一种基于转录者的新型神经网络架构，通过增加上下文信息流来提高自动语音识别系统的准确性，特别是对于不常见的词语识别准确性的改进。我们研究了使用该新模型和 / 或与上下文语言模型浅层融合时不常见词的准确性改进，并发现两者的组合在不常见词识别准确性上具有累计增益。

Feb, 2024

大规模学习通用表示以实现说话人识别

本研究旨在开发一种演讲者识别模型，该模型需要经过充分的架构和大量数据的训练，最终能够在不同的场景下得到实际应用，并且经过实验证明，采用 MFA-Conformer 模型和大数据训练配置可以使性能提高超过 20%。

Oct, 2022