用于音频源分离的多尺度多频带 DenseNets
本文提出了一种新的 CNN 结构称为密集连接扩张 DenseNet(D3Net),用于模拟同时具有多分辨率数据的音频信号,该结构避免了在 DenseNet 中纳入扩张卷积时存在的混叠问题。通过对 MUSDB18 数据集的实验结果表明,D3Net 具有最先进的性能,平均信号失真比为 6.01 分贝。
Oct, 2020
本文通过改进轻量级模型 MMDenstNet,探讨了多个方向的改进方法,包括复杂的理想比率掩蔽、自注意力、带合并和分割的方法以及特征回溯,旨在在实时应用中在分离质量和延迟之间取得平衡。实验结果表明,我们的改进在保持可接受的分离质量的同时实现了低实时因子和最佳延迟。
Jun, 2024
本文提出了一种使用深度神经网络架构的单通道源分离方法,通过在分离过程中确定 DNN 来分类估计的源谱图以检查其有效性,并将混合信号频谱鼓励写成估计的源谱图的加权和,实现了单通道源分离问题的能量最小化。
Nov, 2013
本文提出了一种基于 Wave-U-Net 的新颖的时域音源分离结构,在处理长时间序列信号时取得了较好的分离效果,并通过改进输出层和追溯预测框架等结构进行优化,同时揭示了当前 SDR 指标存在的问题并提出了改进方案。
Jun, 2018
本研究针对影视音频源分离这一相对较新的子任务,开发了一种模型,其可以适用于任何完全或过完备的频率划分。通过使用心理声学上激发的频率刻度来定义频段,增加了冗余以提高特征提取的可靠性。提出了基于信噪比和 1 - 范数的稀疏促进特性的损失函数,并利用共享编码器的信息共享特性,在训练和推理时都减少了计算复杂度,提高了对难以泛化声音类别的分离性能,并在对话音频分离方面的理想比例掩码上取得了业界领先的性能。
Sep, 2023
利用深度神经网络技术实现音频源分离,通过在多个尺度上集成长短时记忆网络和跳跃连接,提出了一种新的网络架构,可以有效地建模音频背景中的长期结构,并在分离任务上获得了比其他网络更好的结果。
May, 2018
提出一种将源分离和最先进的表示学习技术相结合的特征表示方法来优化计算机听觉(即机器听力),在一组挑战性的电子舞曲(EDM)数据集上训练深度可分离卷积神经网络,将其性能与操作源分离和标准光谱图的卷积神经网络进行比较,表明在有限数据环境下,源分离提高了分类性能。
Dec, 2020
本文提出了一种无监督的基于模型的深度学习方法,用于音频源分离,该方法通过参数化源过滤器模型对每个源进行建模,并使用神经网络以基本频率估计源模型的参数来重构观察到的混合音频信号,实验证明该方法具有较高的数据效率和好的分离效果。
Jan, 2022