Pac-HuBERT: 基于原始听觉聚类和隐藏单元 BERT 的自监督音乐源分离

Apr, 2023

Pac-HuBERT: 基于原始听觉聚类和隐藏单元 BERT 的自监督音乐源分离

Pac-HuBERT: Self-Supervised Music Source Separation via Primitive Auditory Clustering and Hidden-Unit BERT

Ke Chen, Gordon Wichern, François G. Germain, Jonathan Le Roux

TL;DR本研究提出了一种基于自监督学习和 HuBERT speech representation 模型的音乐源分离框架，结合 Demucs V2 和 Res-U-Net 解码器，使用自由音乐库（FMA）数据集进行预训练，实现了比原始 Demucs V2 和 Res-U-Net 模型更好的源 - 失真比（SDR）表现，并可以在少量监督数据的情况下提升性能。

Abstract

In spite of the progress in music source separation research, the small amount of publicly-available clean source data remains a constant limiting factor for performance. Thus, recent advances in self-supervised learnin

music source separation self-supervised learning pac-hubert demucs v2 res-u-net

发现论文，激发创造

HuBERT：自监督语音表示学习通过隐藏单元的掩码预测

本研究提出了一个利用聚类和预测损失的自监督学习方法 HuBERT，来解决语音表示学习中存在的多个输入单元、无法在预训练阶段建立输入单元词典以及不明显的分割问题，该方法对于掩盖区域的预测损失、高质量的聚类步骤具有一定的鲁棒性，在多个基准测试集上的表现不低于当前最先进的 wav2vec 2.0 性能。

Jun, 2021

Cocktail HuBERT: 用于混合和单一来源语音的通用自监督预训练

本文提出了一种名为 Cocktail HuBERT 的自监督学习框架，通过掩蔽伪源分离目标来泛化到混合语音领域，从而在多说话人 ASR 上实现了 69% 的 WER 降低和 31% 的分离误差率降低，并且在 SUPERB 中的单说话人和多说话人任务上表现优异。

Mar, 2023

非监督单元发现在 SSL 语音表示方面的极限探索

本文提出了两个模型，MonoBERT 和 PolyBERT，它们使用上下文无关和上下文相关的音素为预训练提供了目标改进。我们的模型在 LibriSpeech 基准测试中显著优于其他自监督学习模型，无需迭代重新分簇和重新训练。此外，我们的模型配备上下文相关单元，甚至优于在预训练期间使用标记数据的目标改进模型。通过实验证明了如何逐步改进单元发现过程。

Jun, 2023

Spatial HuBERT：基于多通道音频的自监督单讲话者空间语音表征学习

Spatial HuBERT 是一种自我监督的语音表示模型，通过使用多通道音频输入学习单个说话者在潜在嘈杂环境中的声学和空间信息，可以在多种空间下游任务中优于最先进的单通道语音表示，在混响和嘈杂环境中表现出色。

Oct, 2023

利用隐藏单元聚类进行低资源语音应用的表示学习

本研究提出一种利用隐藏单元聚类框架进行自监督表示学习进行说话的表征学习的方法，该方法能够将表示归类为少量的类似音素的单元，通过对两个数据集进行实验证明了其在无监督和半监督声学任务上的有效性。

Jul, 2023

Demucs: 深度源音频分离器及其在额外未标注数据中的应用

本文使用深度学习等方法对音乐进行源分离研究，提出了一种卷积和循环的模型，同时提出了一种新的方法来利用无标签的音乐数据，这些方法比现有的方法表现更好。

Sep, 2019

波形域音乐源分离

本文比较了两种不同的音乐源分离模型：Conv-Tasnet 和 Demucs。实验结果表明，Demucs 模型通过采用恰当的数据增广技术，在音乐分离任务上优于 Conv-Tasnet 模型，同时其语音自然度表现也更佳。

Nov, 2019

可微分参数源模型的无监督音乐源分离

本文提出了一种无监督的基于模型的深度学习方法，用于音频源分离，该方法通过参数化源过滤器模型对每个源进行建模，并使用神经网络以基本频率估计源模型的参数来重构观察到的混合音频信号，实验证明该方法具有较高的数据效率和好的分离效果。

Jan, 2022

u-HuBERT：统一的混合模态语音预训练与零样本迁移到未标记模态

本文提出了 u-HuBERT，它是一个能够利用模态失效的自监督预训练框架，可以在保持优秀性能的同时，实现单模型处理多模态的语音输入。

Jul, 2022

MelHuBERT：基于 Mel 频谱的精简 HuBERT

该研究论文介绍了一种用于语音表示学习的自监督模型 HuBERT 以及其简化版本 MelHuBERT，可以使用 Mel 频谱作为输入训练单个 GPU 上的高效模型。研究还围绕损失函数、多阶段训练和数据流选项进行了探讨。

Nov, 2022