MS-HuBERT: 针对语音表示学习中的预训练与推理不匹配进行缓解的遮蔽语言模型方法

Jun, 2024

MS-HuBERT: 针对语音表示学习中的预训练与推理不匹配进行缓解的遮蔽语言模型方法

MS-HuBERT: Mitigating Pre-training and Inference Mismatch in Masked Language Modelling methods for learning Speech Representations

PDF

Hemant Yadav, Sunayana Sitaram, Rajiv Ratn Shah

TL;DR提出了一种用于学习鲁棒语音表示的自我监督预训练方法 MS-HuBERT，通过解决预训练和推理不匹配问题，以及利用模型能力更有效地使用多聚类遮蔽预测损失，相比于传统的 HuBERT 在不同微调数据集上平均提高了 5% 的性能，并表明在预训练期间获得的嵌入式表示编码了提高内容相关任务（如 ASR）性能的重要信息。

Abstract

In recent years, self-supervised pre-training methods have gained significant traction in learning high-level information from raw speech. Among these methods, hubert has demonstrated SOTA performance in automati

self-supervised pre-training methods hubert swap method multicluster masked prediction loss robust speech representations

发现论文，激发创造

HuBERT：自监督语音表示学习通过隐藏单元的掩码预测

本研究提出了一个利用聚类和预测损失的自监督学习方法 HuBERT，来解决语音表示学习中存在的多个输入单元、无法在预训练阶段建立输入单元词典以及不明显的分割问题，该方法对于掩盖区域的预测损失、高质量的聚类步骤具有一定的鲁棒性，在多个基准测试集上的表现不低于当前最先进的 wav2vec 2.0 性能。

Jun, 2021

快速 - HuBERT：用于无监督语音表示学习的高效训练框架

近年来，自我监督学习方法在语音处理任务中取得了显著进展。本文提出了一种名为 Fast-HuBERT 的高效优化方法，通过分析 HuBERT 预训练的计算成本并引入一系列效率优化，实现了与原始实现相比，无性能降低、在 Librispeech 960h 基准上训练时间为 1.1 天、速度提升 5.2 倍的效果。此外，我们在 Fast-HuBERT 中探索了两种技术，并展示了与之前工作相一致的改进效果。

Sep, 2023

W2v-BERT: 结合对比学习和掩码语言建模进行自监督语音预训练

本文介绍了 w2v-BERT，一个基于 Masked Language Modeling 的 self-supervised 模型，结合了对比学习和 MLM，用于自我训练语音识别模型。通过对 Libri-Light 60k 语料库进行训练，该模型在测试数据集上相对于其他最先进的预训练模型减少了 5% 至 10% 的相对词错误率，并且在谷歌语音搜索数据集上相对于内部 Conformer-based wav2vec 2.0 模型提高了超过 30% 的相对性能。

Aug, 2021

u-HuBERT：统一的混合模态语音预训练与零样本迁移到未标记模态

本文提出了 u-HuBERT，它是一个能够利用模态失效的自监督预训练框架，可以在保持优秀性能的同时，实现单模型处理多模态的语音输入。

Jul, 2022

非监督单元发现在 SSL 语音表示方面的极限探索

本文提出了两个模型，MonoBERT 和 PolyBERT，它们使用上下文无关和上下文相关的音素为预训练提供了目标改进。我们的模型在 LibriSpeech 基准测试中显著优于其他自监督学习模型，无需迭代重新分簇和重新训练。此外，我们的模型配备上下文相关单元，甚至优于在预训练期间使用标记数据的目标改进模型。通过实验证明了如何逐步改进单元发现过程。

Jun, 2023

DistilHuBERT：基于层间蒸馏的 BERT 隐藏单元语音表示学习

本文介绍了 DistilHuBERT，它是一种新的多任务学习框架，可从 HuBERT 模型中提取隐藏表示，节省了大量内存和训练时间成本，并且在十个不同的任务中保留了大多数性能，从而使得个人和设备上的 SSL 模型的预训练成为可能。

Oct, 2021

多语音预训练中的语言通用语音表示法用于小资源语音识别

本文提出一种结合多语言训练和自监督学习的方法来提高低资源 ASR 性能，其中采用国际音标（IPA）多语言模型为无标签语音创建帧级伪标签，并以这些伪标签以 Phonetically-informed 的方式引导基于 HuBERT 的语音预训练。实验证明，该方法在所有目标语言上均优于标准 HuBERT，并且在 3 种语言中表现更佳，同时最多能够节省 1.5k 小时（75%）有监督训练数据。

May, 2023

HuBERTopic: 通过主题模型自我监督提升 HuBERT 的语义表示

我们提出了一种新方法来丰富 HuBERT 的语义表示，通过将主题模型应用于伪标签以为每个话语生成主题标签，并使用主题标签作为教师添加辅助的主题分类任务，以无监督的方式融入额外的全局语义信息。实验证明，我们的方法在大多数任务中实现了与基准方法相当或更好的性能，包括自动语音识别和 8 个超级任务中的 5 个任务。此外，我们发现主题标签包含关于话语的各种信息，如性别、演讲者和主题，凸显了我们方法在捕捉多方面语义细微差别方面的有效性。

Oct, 2023

MelHuBERT：基于 Mel 频谱的精简 HuBERT

该研究论文介绍了一种用于语音表示学习的自监督模型 HuBERT 以及其简化版本 MelHuBERT，可以使用 Mel 频谱作为输入训练单个 GPU 上的高效模型。研究还围绕损失函数、多阶段训练和数据流选项进行了探讨。

Nov, 2022

Cocktail HuBERT: 用于混合和单一来源语音的通用自监督预训练

本文提出了一种名为 Cocktail HuBERT 的自监督学习框架，通过掩蔽伪源分离目标来泛化到混合语音领域，从而在多说话人 ASR 上实现了 69% 的 WER 降低和 31% 的分离误差率降低，并且在 SUPERB 中的单说话人和多说话人任务上表现优异。

Mar, 2023