通过在100种语言上使用超过2TB的CommonCrawl数据对基于Transformer的掩蔽语言模型进行大规模的预训练,该模型命名为XLM-R,显著优于mBERT,在跨语言基准测试中实现了+14.6%和+13%的平均准确性和F1分数,并改善了10个低资源语言的准确性,显示了前景。
Nov, 2019
XLSR是一种学习跨语言语音表示的模型,通过对多种语言的语音原始波形进行预训练来构建模型,上述模型建立在wav2vec 2.0的基础之上,可以使用单一模型完成多语言语音识别任务,并且具有更好的性能。
Jun, 2020
通过利用大量未标记的语音和文本数据(包括Libri-Light语音音频语料库和CommonCrawl语言建模)的预训练和自我训练,我们的实验结果表明,在不利用监督学习数据的前提下,通过wav2vec 2.0预训练、自我训练和配合语言模型的方法,能够使所有四个CoVoST 2语言对的 BLEU 平均值提高2.6。代码和模型将公开发布。
Apr, 2021
该论文研究了基于跨语言转移的多语种自动语音识别模型的最新进展和最佳实践,并探讨了未来的研究方向和建议。
Feb, 2022
该文章介绍了新的XTREME-S基准测试,其涉及语音识别,分类,语音到文本翻译和检索四大任务类别。该基准测试覆盖了10多种语言家族的102种语言与3个不同领域和4个任务家族,旨在简化多语言语音表示评估,并以XLS-R和mSLAM在所有下游任务中建立了第一个仅语音和语音文本基线。同时该基准测试旨在推动对“通用”的语音表示学习的研究,数据集和微调脚本可在提供的网址进行访问。
Mar, 2022
提出了SAMU-XLSR模型,基于语义对齐的多模态跨语言话语级别语音表示学习框架。通过将XLS-R模型和LaBSE模型组合,SAMU-XLSR模型可以提取高质量的多模态多语言话语语音特征,并可以实现跨语音和跨文字之间的相互转换。
May, 2022
本文探索在有限监督数据的情况下,如何使用半监督学习和自学习相结合的自回归编码器-解码器模型处理会话性语音领域,结果表明,在在领域内数据较为有限时,通过 XLS-R 模型自伪转录,使用这种自回归模型比微调 XLS-R 模型的效果更好,可以将 WER 降低8%的绝对值。
Oct, 2022
利用自监督语音表示的微调和利用转录训练的n-gram语言模型增强多语言表示,相对于从头开始训练的混合模型,将代码切换数据的绝对词错误率降低了高达20%。研究结果表明,在训练数据受限的情况下,微调自监督表示是一种更优秀和可行的解决方案。
Nov, 2023
基于XLAVS-R的跨语言音频-视觉语音表示模型,在噪声环境下提高语音识别和翻译的鲁棒性,并在超过100种语言中显示出强大的跨语言音频-视觉能力。
Mar, 2024
mHuBERT-147是第一个以90K小时的干净、开源数据训练的通用多语言HuBERT语音表示模型,通过基于faiss的聚类实现了5.2倍更快的标签分配速度,同时应用了新的多语言批量上采样策略,在只有95M个参数的情况下,在经过3次训练迭代后能够胜过在更多数据上训练的更大模型,并且在ML-SUPERB 10分钟/1小时排行榜上分别排名第二和第一,在所有语种识别任务中具有最高的性能得分。在ASR/LID任务中,我们的模型始终超越XLS-R(300M个参数;436K小时)并且与更大的MMS(1B个参数;491K小时)具有很强的竞争力。我们的研究结果表明,mHuBERT-147是一个有前景的多语言语音处理模型,提供了高性能和参数效率之间的前所未有的平衡。
Jun, 2024