意外学习者：多语言自监督模型中的口语识别

Nov, 2022

意外学习者：多语言自监督模型中的口语识别

Accidental Learners: Spoken Language Identification in Multilingual Self-Supervised Models

Travis M. Bartley, Fei Jia, Krishna C. Puvvada, Samuel Kriman, Boris Ginsburg

TL;DR本文通过采用 Conformer 架构，在多语言预训练模型中扩展了以往的自监督方法，我们发现预训练的语音模型最佳地在底层编码语言的区分信息。进一步地，我们证明了从这些层获取的嵌入对于分类未见过的语言和不同的声学环境具有显著的鲁棒性，无需额外的训练。在 VoxLingua107 数据集上微调预训练的 Conformer 模型后，我们实现了类似于语言识别当前最先进系统的结果。此外，我们的模型参数比当前系统少了五倍，并通过 NVIDIA NeMo 工具包开源了该模型。

Abstract

In this paper, we extend previous self-supervised approaches for language identification by experimenting with conformer based architecture in a multilingual →

self-supervised conformer language identification pre-training speech models

发现论文，激发创造

用于口语识别的预训练方法：TalTech 在 OLR 2021 挑战赛中的提交

本文研究了口语语言识别的不同预训练方法，并基于我们在东方语言识别挑战赛 2021 中的提交，参与了有约束和无约束的语言识别的两个任务。我们主要使用 Conformer-based 编码器 - 解码器模型和 XLSR-53 wav2vec2.0 模型作为端到端的系统，这些模型都包含有前置的预训练网络。

May, 2022

多语言自监督和弱监督语音预训练与适应未见语言的比较

本文研究了两个多语言语音模型在适应未见语言上的性能比较，发现模型的预训练数据中包含的语言家族数量和训练时长能预测模型的表现，与预训练方法的差异不相关。

May, 2023

基于 Conformer 的长篇语音流式语言识别的注意力时序池化

本文提出了一种基于 conformer 层的新型语言识别系统，提出一种注意力时序池化机制，可以以递归形式携带长音频的信息，从而可以进行流式推理。此外，本文还研究了两种领域适应方法，以允许适应现有的语言识别模型。我们的实验表明，本文提出的模型拓扑结构明显优于 LSTM 和 transformer，而且注意力时序池化和领域适应可以提高模型的准确性。

Feb, 2022

使用 ConvNets 进行口语语言识别

该研究论文研究了语言识别的问题，使用了基于注意力机制和神经网络的方法，使用频谱图像作为输入以及原始波形作为特征，对六种语言进行了分类，获得了高精度的结果。

Oct, 2019

通过自监督表示混合和嵌入初始化最大化跨语言 TTS 适应的数据效率

本文介绍了一种有效的迁移学习框架，用于在文本转语音系统中进行语言适应，重点是通过使用尽可能少的标记和未标记数据实现语言适应。实验结果表明，我们的框架能够仅使用 4 个标记数据和 15 分钟未标记数据合成未知语言的可懂语音，还能在可获得更多数据的情况下超越传统技术，凸显了我们的高效语言适应框架的潜力。

Jan, 2024

智能代理中口语理解的无监督迁移学习

通过使用语言模型的嵌入（ELMo）技术，提出了一种更快、更简单的无监督预训练方法 ELMo-Light（ELMoL），在大量未标记的句子上进行的无监督预训练，在语音识别任务上比从头开始训练或传统的有监督迁移学习方法表现更好，并且当域内的标记样本仅有 1000 个时，我们的技术可以匹配使用 10-15 倍更多标记的样本从头开始训练的性能。

Nov, 2018

使用预训练模型的自适应多语言语音识别

使用预训练的 wav2vec 2.0 和 MBART50 模型，结合自适应权重技术，显著提高公共数据集上多语言语音识别的准确性，比纯监督学习提高 44%。同时我们还探索了如何通过微调结构以获得最佳模型。

May, 2022

利用自监督语音模型进行音素分割

应用迁移学习到音素分割任务中，在自监督预训练中学习的表示对任务的效用得到证明。通过在 Transformer 风格编码器中增加有策略的卷积，操作预训练中学到的特征。在 TIMIT 和 Buckeye 语料库上训练和测试了该模型，分别在监督和非监督设置下达到了以前的最佳性能。在代码审查和尝试复现过去的分割结果中观察到，有必要明确广泛使用的评估指标的定义和实现。通过划分两种不同的评估方案并描述它们的细微差别来解决了这种不确定性。

Nov, 2022

健壮的开放式口语语种识别和 CU MultiLang 数据集

我们实现了一种基于 MFCC 和音高特征的 TDNN 模型、通过对 softmax 输出进行置信度阈值设置以及使用 LDA 和 pLDA 来学习对新的未知语言进行分类的开放式口语识别系统，该系统在已训练语言上达到了 91.76% 的准确率，并能够动态适应未知语言。

Aug, 2023

通过多标签分类实现有效的口语语言识别

本文主要讲述了如何利用卷积神经网络构建高效的口语语种识别模型，并在训练时采用多标签的方式来应对非目标语种的识别，实验结果表明，该模型相比当前最先进的方法在速度上有数量级的提升，并且在多标签分类任务中更加稳健。

Jun, 2023