本文旨在介绍音乐分离的任务以及该任务的两个新的基准数据集,比较流行模型的表现并提供评估排名,同时提供可下载的基准数据集。作者提出了一种使用不同模型进行集成的新方法,并在音乐分离挑战赛中取得了最佳结果,该方法的代码和技术细节已在 GitHub 上公开。
May, 2023
本文介绍了我们在 2023 年声音分离比赛的音乐分离赛道中获奖的两种解决方案,分别使用了一种时间有效的源分离网络和一种用于噪音鲁棒源分离的损失掩蔽方法。
Jun, 2023
本文比较了两种不同的音乐源分离模型:Conv-Tasnet 和 Demucs。实验结果表明,Demucs 模型通过采用恰当的数据增广技术,在音乐分离任务上优于 Conv-Tasnet 模型,同时其语音自然度表现也更佳。
Nov, 2019
本文使用深度学习等方法对音乐进行源分离研究,提出了一种卷积和循环的模型,同时提出了一种新的方法来利用无标签的音乐数据,这些方法比现有的方法表现更好。
Sep, 2019
该研究介绍了 StemGMD,这是一个大规模的音频数据集,用于孤立的单乐器鼓音轨。使用真实的声音鼓套件合成每个音频剪辑,总共 1224 小时,是迄今为止最大的鼓音频数据集,也是第一个包含九件标准鼓套件的每个乐器的孤立音频剪辑。利用 StemGMD,研究者们开发了 LarsNet,一种新颖的深度鼓音源分离模型,并证明其在分离五个鼓声音轨方面的性能显著优于现有的非负谱时分解方法。
Dec, 2023
本文介绍了在音频信号源分离中采用端到端混合模型的方法,该方法使模型决定哪个领域最适合每个源,并将两者结合起来。该方法在 Sony 举办的 2021 年音乐分离挑战中获胜。实验结果表明,该模型在 MusDB HQ 数据集上实现了 1.4dB 的 SDR 改进,并得到了人类主观评价的认可。
Nov, 2021
本文介绍了用于音乐源分离的 MoisesDB 数据集,包括 240 首歌曲,来自 45 位艺术家,覆盖了十二种音乐流派。我们提供了每首歌曲的个体音频源,以两级分层分类法进行组织。为了方便构建和评估细粒度的源分离系统,我们发布了一个易于使用的 Python 库来下载、处理和使用 MoisesDB。除了详细介绍和分析数据集内容外,本研究还提供了针对不同分离粒度(四、五和六个音频源)的开源分离模型的基线结果,并讨论了它们的结果。
Jul, 2023
该论文提出 Slakh 数据集作为音乐源分离研究的新工具,针对有限的训练数据进行数据增强,从而有效提高音乐源分离的性能。Slakh2100 数据集中包含 2100 首曲目,是目前同领域标准数据集 MUSDB18 数据的一个数量级。
本文通过改进轻量级模型 MMDenstNet,探讨了多个方向的改进方法,包括复杂的理想比率掩蔽、自注意力、带合并和分割的方法以及特征回溯,旨在在实时应用中在分离质量和延迟之间取得平衡。实验结果表明,我们的改进在保持可接受的分离质量的同时实现了低实时因子和最佳延迟。
Jun, 2024
这篇论文提出了一种基于音频查询的音乐源分离方法,可以通过查询信号明确地编码源信息,以及在无查询条件下生成通过潜空间插值连续输出的分离掩模。
Aug, 2019