XLS-R: 在大规模自监督下进行跨语言语音表示学习

Nov, 2021

XLS-R: 在大规模自监督下进行跨语言语音表示学习

XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale

Arun Babu, Changhan Wang, Andros Tjandra, Kushal Lakhotia, Qiantong Xu...

TL;DR本文介绍了XLS-R，这是一个基于Wav2vec 2.0的用于跨语言语音表示学习的大规模模型，其在128种语言的近半百万小时的公开语音音频数据上进行训练，并取得了广泛的评估表现。我们的研究致力于提升语音处理任务在更多的世界语言上的表现。

Abstract

This paper presents XLS-R, a large-scale model for cross-lingual speech representation learning based on wav2vec 2.0. We train models with

发现论文，激发创造

大规模跨语言无监督表示学习

通过在100种语言上使用超过2TB的CommonCrawl数据对基于Transformer的掩蔽语言模型进行大规模的预训练，该模型命名为XLM-R，显著优于mBERT，在跨语言基准测试中实现了+14.6％和+13％的平均准确性和F1分数，并改善了10个低资源语言的准确性，显示了前景。

Nov, 2019

无监督跨语言表示学习用于语音识别

XLSR是一种学习跨语言语音表示的模型，通过对多种语言的语音原始波形进行预训练来构建模型，上述模型建立在wav2vec 2.0的基础之上，可以使用单一模型完成多语言语音识别任务，并且具有更好的性能。

Jun, 2020

语音翻译的大规模自监督和半监督学习

通过利用大量未标记的语音和文本数据（包括Libri-Light语音音频语料库和CommonCrawl语言建模）的预训练和自我训练，我们的实验结果表明，在不利用监督学习数据的前提下，通过wav2vec 2.0预训练、自我训练和配合语言模型的方法，能够使所有四个CoVoST 2语言对的 BLEU 平均值提高2.6。代码和模型将公开发布。

Apr, 2021

自动语音识别多语言模型综述

该论文研究了基于跨语言转移的多语种自动语音识别模型的最新进展和最佳实践，并探讨了未来的研究方向和建议。

Feb, 2022

XTREME-S: 评估跨语言语音表示

该文章介绍了新的XTREME-S基准测试，其涉及语音识别，分类，语音到文本翻译和检索四大任务类别。该基准测试覆盖了10多种语言家族的102种语言与3个不同领域和4个任务家族，旨在简化多语言语音表示评估，并以XLS-R和mSLAM在所有下游任务中建立了第一个仅语音和语音文本基线。同时该基准测试旨在推动对“通用”的语音表示学习的研究，数据集和微调脚本可在提供的网址进行访问。

Mar, 2022

SAMU-XLSR：语义对齐的多模态话语级跨语言语音表示

提出了SAMU-XLSR模型，基于语义对齐的多模态跨语言话语级别语音表示学习框架。通过将XLS-R模型和LaBSE模型组合，SAMU-XLSR模型可以提取高质量的多模态多语言话语语音特征，并可以实现跨语音和跨文字之间的相互转换。

May, 2022

使用有限领域监督训练自回归语音识别模型

本文探索在有限监督数据的情况下，如何使用半监督学习和自学习相结合的自回归编码器-解码器模型处理会话性语音领域，结果表明，在在领域内数据较为有限时，通过 XLS-R 模型自伪转录，使用这种自回归模型比微调 XLS-R 模型的效果更好，可以将 WER 降低8%的绝对值。

Oct, 2022

多语言自学习语音表示改进资源有限的非洲语种混杂语音识别

利用自监督语音表示的微调和利用转录训练的n-gram语言模型增强多语言表示，相对于从头开始训练的混合模型，将代码切换数据的绝对词错误率降低了高达20%。研究结果表明，在训练数据受限的情况下，微调自监督表示是一种更优秀和可行的解决方案。

Nov, 2023

XLAVS-R：跨语言音视频言语表征学习用于噪音鲁棒言语感知

基于XLAVS-R的跨语言音频-视觉语音表示模型，在噪声环境下提高语音识别和翻译的鲁棒性，并在超过100种语言中显示出强大的跨语言音频-视觉能力。

Mar, 2024

mHuBERT-147：一种紧凑的多语言HuBERT模型

mHuBERT-147是第一个以90K小时的干净、开源数据训练的通用多语言HuBERT语音表示模型，通过基于faiss的聚类实现了5.2倍更快的标签分配速度，同时应用了新的多语言批量上采样策略，在只有95M个参数的情况下，在经过3次训练迭代后能够胜过在更多数据上训练的更大模型，并且在ML-SUPERB 10分钟/1小时排行榜上分别排名第二和第一，在所有语种识别任务中具有最高的性能得分。在ASR/LID任务中，我们的模型始终超越XLS-R（300M个参数；436K小时）并且与更大的MMS（1B个参数；491K小时）具有很强的竞争力。我们的研究结果表明，mHuBERT-147是一个有前景的多语言语音处理模型，提供了高性能和参数效率之间的前所未有的平衡。

Jun, 2024