面向非洲次撒哈拉地区的多语言语音表示的非洲中心无监督预训练

Apr, 2024

面向非洲次撒哈拉地区的多语言语音表示的非洲中心无监督预训练

Africa-Centric Self-Supervised Pre-Training for Multilingual Speech Representation in a Sub-Saharan Context

Antoine Caubrière, Elodie Gauthier

TL;DR我们提出了第一个自我监督的多语种语音模型，该模型 exclusively 在非洲语音上进行训练。该模型利用了将近 60,000 小时的无标签语音片段，覆盖了撒哈拉以南非洲的 21 种语言和方言。在 FLEURS-102 数据集的 SSA 子集上，我们基于 HuBERT$_{base}$ (0.09B) 架构的方法显示出与 FLEURS 基准提出的 w2v-bert-51 (0.6B) 预训练模型相当的竞争力，同时使用 7 倍少的数据和 6 倍少的参数来提升 ASR 下游任务的性能。此外，在 LID 下游任务中，我们的方法比 FLEURS 基线的准确性提高了超过 22%。

Abstract

We present the first self-supervised multilingual speech model trained exclusively on african speech. The model learned from nearly 60 000 hours of →

self-supervised multilingual speech model african speech unlabeled speech segments sub-saharan africa asr and lid downstream tasks

发现论文，激发创造

使用自监督语音表示学习快速开发非洲语言的自动语音识别技术

本文描述了在 2020 年 6 月非洲机器智能硕士（AMMI）期间启动的一次非正式合作的结果，该合作集中在自动语音识别（ASR）项目上，描述了如何收集数据以及使用少量（1 小时）转录语音作为训练数据如何开发 ASR 系统。在这种低资源条件下，基于大量原始语音的预训练模型对于开发 ASR 系统的效率至关重要。

Mar, 2021

面向非洲语言的大词汇量语音识别：多语言建模和自监督学习

应用多语言模型和自监督学习方法进行预训练和汇集可用数据来提高语音识别质量，为非洲语言建立大词汇量语音识别系统。

Aug, 2022

多语音预训练中的语言通用语音表示法用于小资源语音识别

本文提出一种结合多语言训练和自监督学习的方法来提高低资源 ASR 性能，其中采用国际音标（IPA）多语言模型为无标签语音创建帧级伪标签，并以这些伪标签以 Phonetically-informed 的方式引导基于 HuBERT 的语音预训练。实验证明，该方法在所有目标语言上均优于标准 HuBERT，并且在 3 种语言中表现更佳，同时最多能够节省 1.5k 小时（75%）有监督训练数据。

May, 2023

Maestro-U: 利用联合语音 - 文本表示学习进行零监督语音 ASR

在这篇论文中，我们演示了利用匹配模态的联合语音和文本模型可以训练出一个巨大的多语言自动语音识别模型，即使对于某些语言没有使用受控制的语音作为训练数据。我们还展示了 Maestro-U 的表现，它可以使错误率降低 68.5％，并将 19 种语言的 CER 降到 15％以下。

Oct, 2022

快速 - HuBERT：用于无监督语音表示学习的高效训练框架

近年来，自我监督学习方法在语音处理任务中取得了显著进展。本文提出了一种名为 Fast-HuBERT 的高效优化方法，通过分析 HuBERT 预训练的计算成本并引入一系列效率优化，实现了与原始实现相比，无性能降低、在 Librispeech 960h 基准上训练时间为 1.1 天、速度提升 5.2 倍的效果。此外，我们在 Fast-HuBERT 中探索了两种技术，并展示了与之前工作相一致的改进效果。

Sep, 2023

自监督语音表示学习在土耳其语自动语音识别实验中的应用

使用 HUBERT 进行语音表示学习的土耳其语自动语音识别模型通过从 YouTube 等在线资源中提炼出的海量数据进行预训练，发现这些模型无法在真实情况下应对口音、俚语、背景噪声和干扰等因素，因此并不适用于商业应用场景。

Oct, 2022

多语言自学习语音表示改进资源有限的非洲语种混杂语音识别

利用自监督语音表示的微调和利用转录训练的 n-gram 语言模型增强多语言表示，相对于从头开始训练的混合模型，将代码切换数据的绝对词错误率降低了高达 20%。研究结果表明，在训练数据受限的情况下，微调自监督表示是一种更优秀和可行的解决方案。

Nov, 2023

自监督自适应多语言语音模型的预训练用于语言和方言识别

预训练的基于 Transformer 的语音模型在下游任务（如自动语音识别和口语语言识别）上表现出了令人瞩目的性能，但领域不匹配的问题仍然是一个挑战。为了解决这个问题，我们提出了自监督自适应预训练（SAPT）来适应下游任务的目标领域和语言。我们将 SAPT 应用于 XLSR-128 模型，并研究了该方法在 SLID 任务中的有效性。实验证明，SAPT 在 FLEURS 基准测试中提高了 XLSR 的性能，尤其是对于少数语言，增益高达 40.1%。我们还在少样本学习设置中对四个不同数据集应用了 SAPT，结果显示我们的方法提高了 XLSR 的样本效率。我们的实验证据强有力地证明，通过自监督实现持续自适应可以提升多语言语音模型的下游性能。

Dec, 2023

FLEURS: 语音通用表示的少样本学习评估

介绍 FLEURS，这是一个 Few-shot Learning Evaluation of Universal Representations of Speech 基准，包含 102 种语言的 n 方并行语音数据集，可用于自动语音识别 (ASR)，语音语言识别 (Speech LangID)，翻译和检索等语音任务，并基于多语言预训练模型提供基线，旨在推动语音技术在多种语言中的应用。

May, 2022

基于自监督预训练声学模型的多语言零资源语音识别

本文研究使用预训练模型来解决无监督语音识别中的音素和单词级别的问题。通过在 IPA 音素转写上微调预训练模型并使用语言模型进行解码，实验结果表明该方法可在某些语言上实现低于 20% 的单词错误率，8 种语言的平均错误率为 33.77%。

Oct, 2022