Cocktail HuBERT: 用于混合和单一来源语音的通用自监督预训练

Mar, 2023

Cocktail HuBERT: 用于混合和单一来源语音的通用自监督预训练

Cocktail HuBERT: Generalized Self-Supervised Pre-training for Mixture and Single-Source Speech

Maryam Fazel-Zarandi, Wei-Ning Hsu

TL;DR本文提出了一种名为 Cocktail HuBERT 的自监督学习框架，通过掩蔽伪源分离目标来泛化到混合语音领域，从而在多说话人 ASR 上实现了 69% 的 WER 降低和 31% 的分离误差率降低，并且在 SUPERB 中的单说话人和多说话人任务上表现优异。

Abstract

self-supervised learning leverages unlabeled data effectively, improving label efficiency and generalization to domains without labeled data. While recent work has studied generalization to more acoustic/linguistic domains, languages, and modalities, these investigations are limited to

self-supervised learning mixture speech pseudo source separation multi-speaker asr diarization

发现论文，激发创造

u-HuBERT：统一的混合模态语音预训练与零样本迁移到未标记模态

本文提出了 u-HuBERT，它是一个能够利用模态失效的自监督预训练框架，可以在保持优秀性能的同时，实现单模型处理多模态的语音输入。

Jul, 2022

HuBERT：自监督语音表示学习通过隐藏单元的掩码预测

本研究提出了一个利用聚类和预测损失的自监督学习方法 HuBERT，来解决语音表示学习中存在的多个输入单元、无法在预训练阶段建立输入单元词典以及不明显的分割问题，该方法对于掩盖区域的预测损失、高质量的聚类步骤具有一定的鲁棒性，在多个基准测试集上的表现不低于当前最先进的 wav2vec 2.0 性能。

Jun, 2021

Pac-HuBERT: 基于原始听觉聚类和隐藏单元 BERT 的自监督音乐源分离

本研究提出了一种基于自监督学习和 HuBERT speech representation 模型的音乐源分离框架，结合 Demucs V2 和 Res-U-Net 解码器，使用自由音乐库（FMA）数据集进行预训练，实现了比原始 Demucs V2 和 Res-U-Net 模型更好的源 - 失真比（SDR）表现，并可以在少量监督数据的情况下提升性能。

Apr, 2023

Spatial HuBERT：基于多通道音频的自监督单讲话者空间语音表征学习

Spatial HuBERT 是一种自我监督的语音表示模型，通过使用多通道音频输入学习单个说话者在潜在嘈杂环境中的声学和空间信息，可以在多种空间下游任务中优于最先进的单通道语音表示，在混响和嘈杂环境中表现出色。

Oct, 2023

非监督单元发现在 SSL 语音表示方面的极限探索

本文提出了两个模型，MonoBERT 和 PolyBERT，它们使用上下文无关和上下文相关的音素为预训练提供了目标改进。我们的模型在 LibriSpeech 基准测试中显著优于其他自监督学习模型，无需迭代重新分簇和重新训练。此外，我们的模型配备上下文相关单元，甚至优于在预训练期间使用标记数据的目标改进模型。通过实验证明了如何逐步改进单元发现过程。

Jun, 2023

MS-HuBERT: 针对语音表示学习中的预训练与推理不匹配进行缓解的遮蔽语言模型方法

提出了一种用于学习鲁棒语音表示的自我监督预训练方法 MS-HuBERT，通过解决预训练和推理不匹配问题，以及利用模型能力更有效地使用多聚类遮蔽预测损失，相比于传统的 HuBERT 在不同微调数据集上平均提高了 5% 的性能，并表明在预训练期间获得的嵌入式表示编码了提高内容相关任务（如 ASR）性能的重要信息。

Jun, 2024

HuBERTopic: 通过主题模型自我监督提升 HuBERT 的语义表示

我们提出了一种新方法来丰富 HuBERT 的语义表示，通过将主题模型应用于伪标签以为每个话语生成主题标签，并使用主题标签作为教师添加辅助的主题分类任务，以无监督的方式融入额外的全局语义信息。实验证明，我们的方法在大多数任务中实现了与基准方法相当或更好的性能，包括自动语音识别和 8 个超级任务中的 5 个任务。此外，我们发现主题标签包含关于话语的各种信息，如性别、演讲者和主题，凸显了我们方法在捕捉多方面语义细微差别方面的有效性。

Oct, 2023

通过数据增强、课程学习和多任务增强提高 DistilHuBERT 对未知噪声环境的鲁棒性

本研究提出了一种改进的 DistilHuBERT 模型，该模型引入了噪声和混响以及多任务学习的训练方法，能够有效提高在真实环境下的边缘语音应用中的鲁棒性。

Nov, 2022

快速 - HuBERT：用于无监督语音表示学习的高效训练框架

近年来，自我监督学习方法在语音处理任务中取得了显著进展。本文提出了一种名为 Fast-HuBERT 的高效优化方法，通过分析 HuBERT 预训练的计算成本并引入一系列效率优化，实现了与原始实现相比，无性能降低、在 Librispeech 960h 基准上训练时间为 1.1 天、速度提升 5.2 倍的效果。此外，我们在 Fast-HuBERT 中探索了两种技术，并展示了与之前工作相一致的改进效果。

Sep, 2023

将自监督语音模型与基于视觉语音模型的伪词级目标整合

我们提出了 Pseudo-Word HuBERT （PW-HuBERT）框架，该框架将伪词级目标集成到训练过程中，这些目标是从视觉引导的语音模型中获取的，明显消除了对语音 - 文本配对数据的需求，在四个口语理解基准测试中，我们的模型在捕捉语义信息方面表现出了优越性。

Feb, 2024