mHuBERT-147：一种紧凑的多语言HuBERT模型

Jun, 2024

mHuBERT-147：一种紧凑的多语言HuBERT模型

mHuBERT-147: A Compact Multilingual HuBERT Model

Marcely Zanon Boito, Vivek Iyer, Nikolaos Lagos, Laurent Besacier, Ioan Calapodescu

TL;DRmHuBERT-147是第一个以90K小时的干净、开源数据训练的通用多语言HuBERT语音表示模型，通过基于faiss的聚类实现了5.2倍更快的标签分配速度，同时应用了新的多语言批量上采样策略，在只有95M个参数的情况下，在经过3次训练迭代后能够胜过在更多数据上训练的更大模型，并且在ML-SUPERB 10分钟/1小时排行榜上分别排名第二和第一，在所有语种识别任务中具有最高的性能得分。在ASR/LID任务中，我们的模型始终超越XLS-R（300M个参数；436K小时）并且与更大的MMS（1B个参数；491K小时）具有很强的竞争力。我们的研究结果表明，mHuBERT-147是一个有前景的多语言语音处理模型，提供了高性能和参数效率之间的前所未有的平衡。

Abstract

We present mhubert-147, the first general-purpose massively multilingual HuBERT speech representation model trained on 90K hours of clean, open-license data. To scale up the multi-iteration HuBERT approach, we use faiss-based →

发现论文，激发创造

无监督跨语言表示学习用于语音识别

XLSR是一种学习跨语言语音表示的模型，通过对多种语言的语音原始波形进行预训练来构建模型，上述模型建立在wav2vec 2.0的基础之上，可以使用单一模型完成多语言语音识别任务，并且具有更好的性能。

Jun, 2020

HuBERT：自监督语音表示学习通过隐藏单元的掩码预测

本研究提出了一个利用聚类和预测损失的自监督学习方法 HuBERT，来解决语音表示学习中存在的多个输入单元、无法在预训练阶段建立输入单元词典以及不明显的分割问题，该方法对于掩盖区域的预测损失、高质量的聚类步骤具有一定的鲁棒性，在多个基准测试集上的表现不低于当前最先进的wav2vec 2.0性能。

Jun, 2021

XLS-R: 在大规模自监督下进行跨语言语音表示学习

本文介绍了XLS-R，这是一个基于Wav2vec 2.0的用于跨语言语音表示学习的大规模模型，其在128种语言的近半百万小时的公开语音音频数据上进行训练，并取得了广泛的评估表现。我们的研究致力于提升语音处理任务在更多的世界语言上的表现。

Nov, 2021

XTREME-S: 评估跨语言语音表示

该文章介绍了新的XTREME-S基准测试，其涉及语音识别，分类，语音到文本翻译和检索四大任务类别。该基准测试覆盖了10多种语言家族的102种语言与3个不同领域和4个任务家族，旨在简化多语言语音表示评估，并以XLS-R和mSLAM在所有下游任务中建立了第一个仅语音和语音文本基线。同时该基准测试旨在推动对“通用”的语音表示学习的研究，数据集和微调脚本可在提供的网址进行访问。

Mar, 2022

MelHuBERT：基于Mel频谱的精简HuBERT

该研究论文介绍了一种用于语音表示学习的自监督模型HuBERT以及其简化版本MelHuBERT，可以使用Mel频谱作为输入训练单个GPU上的高效模型。研究还围绕损失函数、多阶段训练和数据流选项进行了探讨。

Nov, 2022

ML-SUPERB: 多语言语音通用性能基准

本文提出的多语种SUPERB (ML-SUPERB)利用冻结的自我监督学习 (SSL) 特征和简单的框架，考虑了143种语言（从高资源到濒危），并考虑了自动语音识别和语言识别。我们发现语音SSL模型与FBANK特征相比可以显著提高性能，但我们发现多语种模型并不总是比它们的单语种模型表现更好。我们将发布ML-SUPERB作为挑战，以组织数据集和可复制的训练脚本，用于未来的多语种表示研究。

May, 2023

通过多指令训练教授一种多语言的大型语言模型理解多语言语音

利用多语言语言模型与多语言语音编码器，本研究提出BLOOMZMMS，旨在为语音识别及其它领域利用大型语言模型的能力。通过多指令训练方法，我们验证了从文本到语音模态的语言知识的可传递性。实验证明，可以有效地学习并使多语言语音表征与多语言语言模型对齐。尽管初始表征在任务泛化方面存在局限性，但我们通过生成多指令样式的合成目标解决了这个问题。零样本评估结果证实了我们的方法在多种任务上的强大鲁棒性，包括语音翻译和多语言口语理解，从而为语音领域应用大型语言模型开辟了新的途径。

Apr, 2024

多任务多语言语音模型的高效压缩

在这项研究中，我们发现了Whisper这个多任务和多语言语音模型在少数语言上的性能问题，并证明这是与讲话者特征及模型相关偏差有关。针对这个问题，我们提出了DistilWhisper方法，通过轻量级的模型微调和知识蒸馏策略，在保留了多任务和多语言预训练的鲁棒性的同时，有效地提升了目标语言的ASR性能。

May, 2024

ML-SUPERB 2.0：跨模型约束、语言和数据集进行多语言语音模型基准测试

ML-SUPERB~2.0是一个新的基准系统，用于评估预训练的自监督学习和监督语音模型在下游模型、微调设置和高效模型适应方法方面的性能，它发现了ML-SUPERB设置的性能改进，但性能取决于下游模型设计，并且在语言和数据集之间存在大的性能差异，表明需要更有针对性的方法来改进多语言ASR性能。

Jun, 2024

利用构建的代码切换数据增强大语言模型的多语言语音生成和识别能力

本研究解决了当前大语言模型在多语言和代码切换语境中应用的不足，提出了一种多语言多任务（MLMT）模型，将语音生成与识别任务整合在一起。我们的数据构建方法无须依赖代码切换数据即可实现语音合成，实验结果显示该模型在多语言语音生成和识别任务中明显优于其他基线模型。

Sep, 2024