端到端音乐源分离:在波形领域是否可能?
本文比较了两种不同的音乐源分离模型:Conv-Tasnet 和 Demucs。实验结果表明,Demucs 模型通过采用恰当的数据增广技术,在音乐分离任务上优于 Conv-Tasnet 模型,同时其语音自然度表现也更佳。
Nov, 2019
本文提出了一种基于 Wave-U-Net 的新颖的时域音源分离结构,在处理长时间序列信号时取得了较好的分离效果,并通过改进输出层和追溯预测框架等结构进行优化,同时揭示了当前 SDR 指标存在的问题并提出了改进方案。
Jun, 2018
本研究探讨了基于波形输入和基于视听特征学习的卷积神经网络的两种音乐自动标记设计范式在变量大小的数据集上表现的比较,实验结果表明当训练数据不足时,采用音乐领域假设的基于波形的模型在大规模数据场景中的表现优于基于谱图的模型。
Nov, 2017
本研究提出一种扩展的 Wave-U-Net 模型,通过可变数量源的端到端音乐源分离方法,并在瓶颈处使用仪器标签进行乘性调节,从而提高了分离结果,在此基础上实现了其他类型的调节,如音视频源分离和得分通知源分离。
Nov, 2018
本文介绍了在音频信号源分离中采用端到端混合模型的方法,该方法使模型决定哪个领域最适合每个源,并将两者结合起来。该方法在 Sony 举办的 2021 年音乐分离挑战中获胜。实验结果表明,该模型在 MusDB HQ 数据集上实现了 1.4dB 的 SDR 改进,并得到了人类主观评价的认可。
Nov, 2021
本文使用深度学习等方法对音乐进行源分离研究,提出了一种卷积和循环的模型,同时提出了一种新的方法来利用无标签的音乐数据,这些方法比现有的方法表现更好。
Sep, 2019
通过对 ConvTasnet 和 DPT-Net 模型进行滤波等探究,揭示了基于谐波关系的语音分离端到端模型机制,发现这些网络在遭遇人类无法感知的变形时表现不佳,并且 pinpoints 编码器作为网络不稳定性的来源。
Jun, 2022
本文探讨了利用深度神经网络在音乐源分离中仅依赖幅度特征与在加入相位特征后分离性能的提升,提出了一种新的神经网络结构,该结构结合了幅度和相位,实验结果表明,相比仅使用幅度特征的网络,在 DSD100 测试集上使用相位衍生特征能够有效提升音频信号的信噪比,特别地,低音乐器的分离效果因此得到了明显的提升。
Jul, 2018
Wavesplit 是一种端到端的源分离系统,可以通过聚类推断每个源的表示,并给出估计的源信号,从而重新定义干净的混合 2 或 3 个讲话者(WSJ0-2/3mix)以及嘈杂和混响环境(WHAM/WHAMR)的最新技术水平。
Feb, 2020