端到端音乐源分离：在波形领域是否可能？

Oct, 2018

端到端音乐源分离：在波形领域是否可能？

End-to-end music source separation: is it possible in the waveform domain?

Francesc Lluís, Jordi Pons, Xavier Serra

TL;DR本论文研究使用端到端模型进行音乐信号源分离，在考虑所有可用信息的基础上实现对原始音频信号（包括相位部分）的源分离。结果表明，我们提出的一种基于 Wavenet 的模型和 Wave-U-Net 的性能都可以优于 DeepConvSep，一个基于谱图的深度学习模型。

Abstract

Most of the currently successful source separation techniques use the magnitude spectrogram as input, and are therefore by default omitting part of the signal: the phase. To avoid omitting potentially useful information, we study the viability of using →

source separation end-to-end models music raw audio signal wavenet

发现论文，激发创造

波形域音乐源分离

本文比较了两种不同的音乐源分离模型：Conv-Tasnet 和 Demucs。实验结果表明，Demucs 模型通过采用恰当的数据增广技术，在音乐分离任务上优于 Conv-Tasnet 模型，同时其语音自然度表现也更佳。

Nov, 2019

Wave-U-Net: 一种用于端到端音频源分离的多尺度神经网络

本文提出了一种基于 Wave-U-Net 的新颖的时域音源分离结构，在处理长时间序列信号时取得了较好的分离效果，并通过改进输出层和追溯预测框架等结构进行优化，同时揭示了当前 SDR 指标存在的问题并提出了改进方案。

Jun, 2018

大规模音乐标记的端到端学习

本研究探讨了基于波形输入和基于视听特征学习的卷积神经网络的两种音乐自动标记设计范式在变量大小的数据集上表现的比较，实验结果表明当训练数据不足时，采用音乐领域假设的基于波形的模型在大规模数据场景中的表现优于基于谱图的模型。

Nov, 2017

基于乐器标签的端到端声源分离

本研究提出一种扩展的 Wave-U-Net 模型，通过可变数量源的端到端音乐源分离方法，并在瓶颈处使用仪器标签进行乘性调节，从而提高了分离结果，在此基础上实现了其他类型的调节，如音视频源分离和得分通知源分离。

Nov, 2018

混合谱图与波形源分离

本文介绍了在音频信号源分离中采用端到端混合模型的方法，该方法使模型决定哪个领域最适合每个源，并将两者结合起来。该方法在 Sony 举办的 2021 年音乐分离挑战中获胜。实验结果表明，该模型在 MusDB HQ 数据集上实现了 1.4dB 的 SDR 改进，并得到了人类主观评价的认可。

Nov, 2021

Demucs: 深度源音频分离器及其在额外未标注数据中的应用

本文使用深度学习等方法对音乐进行源分离研究，提出了一种卷积和循环的模型，同时提出了一种新的方法来利用无标签的音乐数据，这些方法比现有的方法表现更好。

Sep, 2019

终端到终端语音分离模型漏洞的实证分析

通过对 ConvTasnet 和 DPT-Net 模型进行滤波等探究，揭示了基于谐波关系的语音分离端到端模型机制，发现这些网络在遭遇人类无法感知的变形时表现不佳，并且 pinpoints 编码器作为网络不稳定性的来源。

Jun, 2022

使用相位特征改进基于 DNN 的音乐源分离

本文探讨了利用深度神经网络在音乐源分离中仅依赖幅度特征与在加入相位特征后分离性能的提升，提出了一种新的神经网络结构，该结构结合了幅度和相位，实验结果表明，相比仅使用幅度特征的网络，在 DSD100 测试集上使用相位衍生特征能够有效提升音频信号的信噪比，特别地，低音乐器的分离效果因此得到了明显的提升。

Jul, 2018

端到端多通道语音分离

本文提出了一种基于端到端的多通道语音分离模型，通过可学习空间特征的提出，在 WSJ0 远场语音分离任务中显著改进了单通道和传统多通道方法的性能。

May, 2019

通过说话人聚类的端到端语音分离算法 Wavesplit

Wavesplit 是一种端到端的源分离系统，可以通过聚类推断每个源的表示，并给出估计的源信号，从而重新定义干净的混合 2 或 3 个讲话者（WSJ0-2/3mix）以及嘈杂和混响环境（WHAM/WHAMR）的最新技术水平。

Feb, 2020