用于口语识别的预训练方法：TalTech 在 OLR 2021 挑战赛中的提交

May, 2022

用于口语识别的预训练方法：TalTech 在 OLR 2021 挑战赛中的提交

Pretraining Approaches for Spoken Language Recognition: TalTech Submission to the OLR 2021 Challenge

Tanel Alumäe, Kunnar Kukk

TL;DR本文研究了口语语言识别的不同预训练方法，并基于我们在东方语言识别挑战赛 2021 中的提交，参与了有约束和无约束的语言识别的两个任务。我们主要使用 Conformer-based 编码器 - 解码器模型和 XLSR-53 wav2vec2.0 模型作为端到端的系统，这些模型都包含有前置的预训练网络。

Abstract

This paper investigates different pretraining approaches to spoken language identification. The paper is based on our submission to the Oriental Language Recognition 2021 Challenge. We participated in two tracks of the challenge: constrained and unconstrained language recognition. For the constrained track, we first trained a →

spoken language identification pre-training approaches conformer-based encoder-decoder model multilingual automatic speech recognition xlsr-53 wav2vec2.0 model

发现论文，激发创造

无监督跨语言表示学习用于语音识别

XLSR 是一种学习跨语言语音表示的模型，通过对多种语言的语音原始波形进行预训练来构建模型，上述模型建立在 wav2vec 2.0 的基础之上，可以使用单一模型完成多语言语音识别任务，并且具有更好的性能。

Jun, 2020

基于预训练语音模型的低资源语音识别改进：继续预训练与半监督训练

本文通过在多种低资源语言的未标注同语言音频数据上使用 XLSR-53 预训练模型进行持续预训练来改进自动语音识别的性能，结果表明持续预训练在单词错误率方面与半监督训练的效果相当且更加高效。

Jul, 2022

使用预训练模型的自适应多语言语音识别

使用预训练的 wav2vec 2.0 和 MBART50 模型，结合自适应权重技术，显著提高公共数据集上多语言语音识别的准确性，比纯监督学习提高 44%。同时我们还探索了如何通过微调结构以获得最佳模型。

May, 2022

多语音预训练中的语言通用语音表示法用于小资源语音识别

本文提出一种结合多语言训练和自监督学习的方法来提高低资源 ASR 性能，其中采用国际音标（IPA）多语言模型为无标签语音创建帧级伪标签，并以这些伪标签以 Phonetically-informed 的方式引导基于 HuBERT 的语音预训练。实验证明，该方法在所有目标语言上均优于标准 HuBERT，并且在 3 种语言中表现更佳，同时最多能够节省 1.5k 小时（75%）有监督训练数据。

May, 2023

意外学习者：多语言自监督模型中的口语识别

本文通过采用 Conformer 架构，在多语言预训练模型中扩展了以往的自监督方法，我们发现预训练的语音模型最佳地在底层编码语言的区分信息。进一步地，我们证明了从这些层获取的嵌入对于分类未见过的语言和不同的声学环境具有显著的鲁棒性，无需额外的训练。在 VoxLingua107 数据集上微调预训练的 Conformer 模型后，我们实现了类似于语言识别当前最先进系统的结果。此外，我们的模型参数比当前系统少了五倍，并通过 NVIDIA NeMo 工具包开源了该模型。

Nov, 2022

多语言自监督和弱监督语音预训练与适应未见语言的比较

本文研究了两个多语言语音模型在适应未见语言上的性能比较，发现模型的预训练数据中包含的语言家族数量和训练时长能预测模型的表现，与预训练方法的差异不相关。

May, 2023

CLSRIL-23: 面向印度语言的跨语言语音表示

本研究提出了 CLSRIL-23，一种基于自监督学习的音频预训练模型，可以在 23 种印度语言的原始音频中学习跨语言的语音表示。在预训练期间，将语言特定的语音表示分别比较以比较单语和多语预训练的效果。我们的实验证明，多语预训练优于单语预训练，能够学习对语言进行编码并在下游任务中达到更好的性能。

Jul, 2021

多阶段多模态预训练自动语音识别

多模态预训练可以提高自动语音识别性能，尤其是结合多任务无监督预训练和基于翻译的有监督中间训练方法可以实现显著的字错误率改善。

Mar, 2024

使用大型数据集探索单语音频 Transformer 在捷克语自动语音识别中的能力

本文介绍了在大数据集上通过预训练机器学习模型和微调等方法，利用无标签语音数据和有标签语音数据对 Wav2Vec 2.0 进行 ASR 系统的训练及评估，并取得成功的实验结果。

Jun, 2022

简单而有效的零样本跨语言音素识别

本文通过使用发音特征将多种训练语言的音素映射到目标语言中，对多语言预训练的 wav2vec 2.0 模型进行微调，以在没有标记数据的情况下提高其对未见过的语言的识别能力，并在实验中取得了较优效果。

Sep, 2021