使用生成先验进行无监督音频源分离

May, 2020

使用生成先验进行无监督音频源分离

Unsupervised Audio Source Separation using Generative Priors

Vivek Narayanaswamy, Jayaraman J. Thiagarajan, Rushil Anirudh, Andreas Spanias

TL;DR通过将生成先验训练于各个单独的源上，利用梯度下降优化方法同时在这些源特定的潜在空间中搜索，以有效地恢复各个成分来源，并且通过在飞行中优化使用频谱失真函数而非直接定义波形 GAN 生成先验可以获得良好质量的源估计，我们针对语音数字和乐器数据集的实证研究表明，与传统的与最先进的无监督基线相比，我们的方法的有效性。

Abstract

State-of-the-art under-determined audio source separation systems rely on supervised end-end training of carefully tailored neural network architectures operating either in the time or the spectral domain. However, these methods are severely challenged in terms of requiring access to e

under-determined audio source separation unsupervised methods generative priors spectral domain loss functions spoken digit and instrument datasets

发现论文，激发创造

深度生成先验模型用于源分离

本文提出了一种贝叶斯源分离方法，使用生成模型作为混合信号源分离组件的先验，噪声淬火 Langevin 动力学从后验生成分离的信号源，该方法在 MNIST 分离质量和 CIFAR-10 分离质量上实现了最先进的性能，并在 LSUN 上提供了定性结果。

Feb, 2020

可微分参数源模型的无监督音乐源分离

本文提出了一种无监督的基于模型的深度学习方法，用于音频源分离，该方法通过参数化源过滤器模型对每个源进行建模，并使用神经网络以基本频率估计源模型的参数来重构观察到的混合音频信号，实验证明该方法具有较高的数据效率和好的分离效果。

Jan, 2022

应用于歌声分离的对抗半监督音频源分离技术

本文介绍了一种新的音乐源分离算法，使用对抗训练让分离器的输出更加真实，并取得了对于歌声分离的较好效果。

Oct, 2017

基于生成对抗网络的歌声分离技术 SVSGAN

本文利用生成对抗网络（GAN）和时频掩模函数提出了一种新的人声分离框架，通过在对抗训练过程中进行混合谱分布和清洁谱分布之间的近似来进行分离，利用监督学习初始化参数并利用无监督学习进行优化，实验结果表明该框架可以提高音频分离效果。

Oct, 2017

弱标注数据源分离：一种计算听觉场景分析方法

本研究提出一种基于弱标注数据训练的源分离框架，利用 AudioSet 训练的音频事件检测系统，实现了对 527 种声音类别的分离，采用了 U-Net 结构，平均信噪比为 5.67dB。

Feb, 2020

基于查询学习和弱标注数据的零样本音频源分离

本研究提出了一种基于 Transformer 的声音事件检测系统，采用三组件流水线的整体解决方案来训练一个统一的音频源分离器，该方法使用仅仅少量的弱标记训练数据即可实现多类型音频的分离，并能在零样本情况下学习将音频源进行分离。

Dec, 2021

使用深度自编码器进行音频源分离

该论文提出了一种利用深度自编码器进行无监督音频源分离的新框架，在适当配置的自编码器的帮助下，通过对编码器向量进行聚类，自动分离混合输入中未知源信号的特征。通过调查权重向量并对激活系数在代码层进行聚类，观察了频域中音频信号的原始组件。通过使用属于不同聚类的代码向量，分离并重构原始源声音。虽然回复的音频不是完美的，但在许多实际应用中可能会产生有希望的结果。

Dec, 2014

基于音频查询的音乐源分离

这篇论文提出了一种基于音频查询的音乐源分离方法，可以通过查询信号明确地编码源信息，以及在无查询条件下生成通过潜空间插值连续输出的分离掩模。

Aug, 2019

基于双模态语义相似性的弱监督音频分离

通过在训练期间无需访问单一源声音数据而对多源音频混合进行有条件的声音分离是一个长期存在的挑战。本文提出了一个能够改进现有无监督框架以在目标模态（即音频）中使用条件模态（即语言）中的易于分离的相应信号分离单源信号的通用双模分离框架。我们的实验证明，如果我们可以访问两个模态之间（即 CLAP）的预训练联合嵌入模型，这是可以实现的。另外，我们还在两个基本场景中将我们的框架纳入进行了改进，通过减小训练样本和测试样本之间的分布差异，我们的方法显著提高了纯无监督基准的性能，并且在信噪比（SDR）方面可以实现 71％的提升，达到了有监督学习性能的 97.5％。我们还展示了通过我们提出的弱监督框架扩充有监督学习本身，可以进一步提高性能，使其成为强大的半监督音频分离框架。

Apr, 2024

训练学习的潜在目标，进行两步声源分离

本文提出了一种基于深度神经网络的源分离的两阶段训练方案，第一步学习将信号转换为使掩蔽分离性能最优的潜在空间，第二步训练在学习空间中操作的分离模块，并使用了一个可缩放失真比的 SI-SDR 损失函数来证明优化效果。通过各种声音分离实验，该方法可以比联合学习变换和分离模块的系统获得更好的表现。

Oct, 2019