本研究提出了一种基于 Transformer 的声音事件检测系统,采用三组件流水线的整体解决方案来训练一个统一的音频源分离器,该方法使用仅仅少量的弱标记训练数据即可实现多类型音频的分离,并能在零样本情况下学习将音频源进行分离。
Dec, 2021
本文介绍了一种新的音乐源分离算法,使用对抗训练让分离器的输出更加真实,并取得了对于歌声分离的较好效果。
Oct, 2017
本文提出了一种无监督的基于模型的深度学习方法,用于音频源分离,该方法通过参数化源过滤器模型对每个源进行建模,并使用神经网络以基本频率估计源模型的参数来重构观察到的混合音频信号,实验证明该方法具有较高的数据效率和好的分离效果。
Jan, 2022
本文研究基于深度学习、语义嵌入和分类网络应用于通用声源分离,并成功建立了新的最先进的模型,从而提高了声源分离的性能。
Nov, 2019
本文提出了一种基于深度神经网络的源分离的两阶段训练方案,第一步学习将信号转换为使掩蔽分离性能最优的潜在空间,第二步训练在学习空间中操作的分离模块,并使用了一个可缩放失真比的 SI-SDR 损失函数来证明优化效果。通过各种声音分离实验,该方法可以比联合学习变换和分离模块的系统获得更好的表现。
Oct, 2019
本文使用深度学习等方法对音乐进行源分离研究,提出了一种卷积和循环的模型,同时提出了一种新的方法来利用无标签的音乐数据,这些方法比现有的方法表现更好。
Sep, 2019
该论文介绍一种使用深度聚类和深度吸引子网络的方法,将音乐混合中的所有乐器的时频图嵌入到一个共同的嵌入空间中,并使用混合高斯模型生成参数,从而实现对音乐源的分离,同时嵌入空间具有易于解释性。
Nov, 2018
该论文提出了一种利用深度自编码器进行无监督音频源分离的新框架,在适当配置的自编码器的帮助下,通过对编码器向量进行聚类,自动分离混合输入中未知源信号的特征。通过调查权重向量并对激活系数在代码层进行聚类,观察了频域中音频信号的原始组件。通过使用属于不同聚类的代码向量,分离并重构原始源声音。虽然回复的音频不是完美的,但在许多实际应用中可能会产生有希望的结果。
Dec, 2014
本研究提出一种基于弱标注数据训练的源分离框架,利用 AudioSet 训练的音频事件检测系统,实现了对 527 种声音类别的分离,采用了 U-Net 结构,平均信噪比为 5.67dB。
Feb, 2020
本文比较了两种不同的音乐源分离模型:Conv-Tasnet 和 Demucs。实验结果表明,Demucs 模型通过采用恰当的数据增广技术,在音乐分离任务上优于 Conv-Tasnet 模型,同时其语音自然度表现也更佳。