高效网络用于通用音频源分离

Jul, 2020

Sudo rm -rf: Efficient Networks for Universal Audio Source Separation

Efthymios Tzinis, Zhepei Wang, Paris Smaragdis

TL;DR本文提出了一种高效的神经网络用于端到端通用音频源分离，使用了连续下采样和多分辨率特征重取样（SuDoRMRF）的骨干结构，以及通过简单的一维卷积来执行特征聚合，从而实现了高质量的音频源分离，同时具有受限的浮点运算、内存需求、参数数量和延迟。我们在语音和环境声音分离数据集上的实验表明，SuDoRMRF 可与多种需要更高计算资源的最先进方法相媲美，甚至表现更优越。

Abstract

In this paper, we present an efficient neural network for end-to-end general purpose audio source separation. Specifically, the backbone structure of this →

neural network audio source separation convolutional network successive downsampling and resampling of multi-resolution features simple one-dimensional convolutions

发现论文，激发创造

无采样率依赖的通用音频分离

该论文提出了一种能够处理未经训练的采样频率的通用音频分离（USS）方法，旨在分离任意类型的来源，可作为任何后续任务的预处理器的关键技术，并通过实验验证了该方法相对于基于信号重采样的方法在各种采样频率下的性能优越性。

Sep, 2023

用于音频源分离的多尺度多频带 DenseNets

采用 DenseNet 架构的音频源分离方法在 SiSEC 2016 竞赛中表现优异，具有更好的信号失真比和更少的参数、更短的训练时间。

Jun, 2017

多分辨率卷积自编码器实现的原始多通道音频源分离

本研究提出了一种基于多通道，多分辨率卷积自编码神经网络，通过对原始时域信号进行处理以确定适用于从立体声音乐中分离歌唱声的多分辨率特征，实验结果表明该方法可以实现多通道音频源分离，无需任何手工制作的特征或任何预处理或后处理。

Mar, 2018

Wave-U-Net: 一种用于端到端音频源分离的多尺度神经网络

本文提出了一种基于 Wave-U-Net 的新颖的时域音源分离结构，在处理长时间序列信号时取得了较好的分离效果，并通过改进输出层和追溯预测框架等结构进行优化，同时揭示了当前 SDR 指标存在的问题并提出了改进方案。

Jun, 2018

可微分参数源模型的无监督音乐源分离

本文提出了一种无监督的基于模型的深度学习方法，用于音频源分离，该方法通过参数化源过滤器模型对每个源进行建模，并使用神经网络以基本频率估计源模型的参数来重构观察到的混合音频信号，实验证明该方法具有较高的数据效率和好的分离效果。

Jan, 2022

联合优化掩码和深度循环神经网络进行单声源分离

该研究探索了使用掩蔽函数和深度递归神经网络进行单声道源分离任务（包括单声道语音分离，单声道歌唱声分离和语音去噪）的联合优化。与现有模型相比，我们的方法在评估数据集中的任务中表现良好，并实现了较大的音频性能提升。

Feb, 2015

免费通用声音分离数据的争议是什么？

本研究介绍了自由普遍声音分离数据集（Free Universal Sound Separation，FUSS）及其应用的音频分离模型，使用改进的时域卷积网络（TDCN ++）作为基线模型。通过在由 357 类声音构成的单声源音频数据上生成多达四个的混合，模拟静态吸收和动态混响等情况，模型在信噪比和确定绝对信噪比等评估指标下获得了较好的分离效果，旨在在机器学习领域为声音分离的研究提供基线数据和常用的分离算法。

Nov, 2020

SUMD：用于图像去噪的超级 U 形矩阵分解卷积神经网络

本文提出了一种新颖高效的 CNN 框架，结合 MD 模块和多分支 U 形结构，获得了与 Transformer-based methods 相当的全局上下文特征表征，用于图像去噪，实验结果表明模型 SUMD 可在各种数据集上产生可比较的视觉质量和准确性结果。

Apr, 2022

一种广义的声带分离神经网络用于电影音频源分离

本研究针对影视音频源分离这一相对较新的子任务，开发了一种模型，其可以适用于任何完全或过完备的频率划分。通过使用心理声学上激发的频率刻度来定义频段，增加了冗余以提高特征提取的可靠性。提出了基于信噪比和 1 - 范数的稀疏促进特性的损失函数，并利用共享编码器的信息共享特性，在训练和推理时都减少了计算复杂度，提高了对难以泛化声音类别的分离性能，并在对话音频分离方面的理想比例掩码上取得了业界领先的性能。

Sep, 2023

训练学习的潜在目标，进行两步声源分离

本文提出了一种基于深度神经网络的源分离的两阶段训练方案，第一步学习将信号转换为使掩蔽分离性能最优的潜在空间，第二步训练在学习空间中操作的分离模块，并使用了一个可缩放失真比的 SI-SDR 损失函数来证明优化效果。通过各种声音分离实验，该方法可以比联合学习变换和分离模块的系统获得更好的表现。

Oct, 2019