基于残差量化变分自编码器的多源原音乐音源分离

Aug, 2024

基于残差量化变分自编码器的多源原音乐音源分离

Source Separation of Multi-source Raw Music using a Residual Quantized Variational Autoencoder

Leonardo Berti

TL;DR本研究解决了多轨音频中的音乐音源分离问题，提出了一种基于残差量化变分自编码器的新型神经音频编码模型。模型在Slakh2100数据集上训练，显示出接近最先进的结果，同时显著降低了计算资源的需求，具有广泛的应用潜力。

Abstract

I developed a neural audio codec model based on the residual quantized Variational Autoencoder architecture. I train the model on the Slakh2100 dataset, a standard dataset for musical Source Separation, composed

发现论文，激发创造

使用深度自编码器进行音频源分离

该论文提出了一种利用深度自编码器进行无监督音频源分离的新框架，在适当配置的自编码器的帮助下，通过对编码器向量进行聚类，自动分离混合输入中未知源信号的特征。通过调查权重向量并对激活系数在代码层进行聚类，观察了频域中音频信号的原始组件。通过使用属于不同聚类的代码向量，分离并重构原始源声音。虽然回复的音频不是完美的，但在许多实际应用中可能会产生有希望的结果。

Dec, 2014

研究训练数据质量和数量对音乐源分离的影响的数据集：Slakh

该论文提出 Slakh 数据集作为音乐源分离研究的新工具，针对有限的训练数据进行数据增强，从而有效提高音乐源分离的性能。Slakh2100 数据集中包含 2100 首曲目，是目前同领域标准数据集 MUSDB18 数据的一个数量级。

Sep, 2019

波形域音乐源分离

本文比较了两种不同的音乐源分离模型：Conv-Tasnet和Demucs。实验结果表明，Demucs模型通过采用恰当的数据增广技术，在音乐分离任务上优于Conv-Tasnet模型，同时其语音自然度表现也更佳。

Nov, 2019

零样本音乐源分离、转录和合成的统一模型

通过一个三合一的统一模型来对音频进行分离、转录和综合，采用一种pitch-timbre分离模块来更好地计算音源之间的关系，从而实现零样本学习。

Aug, 2021

RAVE: 一种快速高质量神经音频合成的变分自编码器

本文介绍了一种实时音频变分自动编码器(RAVE)，允许快速且高质量的音频波形合成，采用多频段分解处理原始波形。通过后训练分析潜在空间，实现重构保真度与表示紧凑性之间的直接控制。例如对于音质转换和信号压缩等应用，该模型相比于现有模型表现更优。

Nov, 2021

可微分参数源模型的无监督音乐源分离

本文提出了一种无监督的基于模型的深度学习方法，用于音频源分离，该方法通过参数化源过滤器模型对每个源进行建模，并使用神经网络以基本频率估计源模型的参数来重构观察到的混合音频信号，实验证明该方法具有较高的数据效率和好的分离效果。

Jan, 2022

音源分离基于潜在变分分块解缠

混合经典数字信号处理/深度神经网络的方法用于源分离任务，通过设计合理的潜在空间，将单通道欠定的源分离问题转化为等效的多通道过定的问题，并使用变分块间分离表征混合信号，通过经典信号处理理论结果的启发，提出可靠性更强、过拟合风险降低的模型。

Feb, 2024

无监督音频可组合表示

本研究解决了现有生成模型在组合推理方面的不足，专注于针对音乐数据的完全无监督的组合表示学习。我们提出了一种灵活的自编码目标框架，结合扩散模型，显著提高音频源分离的效果，与其他盲源分离方法相比表现优越，并在信噪比指标上超过现有的有监督基线。

Aug, 2024

基于潜在扩散的多源音乐生成

本研究解决现有音乐生成模型在生成丰富旋律时存在的不足，提出了一种多源潜在扩散模型（MSLDM），通过变分自编码器（VAE）有效捕捉每个乐器源独特特征。研究表明，该模型在音乐生成的整体和部分性能上显著优于传统模型，具有更好的音质和可用性。

Sep, 2024

基于潜在扩散的多源音乐生成

本研究解决了现有音乐生成模型无法生成丰富旋律的问题，并提出采用变分自编码器的多源潜在扩散模型（MSLDM）。该方法通过对每个乐器源进行独立编码，显著提高了音乐生成的质量和效率，实验结果表明，MSLDM优于现有的多源扩散模型（MSDM）。

Sep, 2024