Wave-U-Net: 一种用于端到端音频源分离的多尺度神经网络

Jun, 2018

Wave-U-Net: 一种用于端到端音频源分离的多尺度神经网络

Wave-U-Net: A Multi-Scale Neural Network for End-to-End Audio Source Separation

Daniel Stoller, Sebastian Ewert, Simon Dixon

TL;DR本文提出了一种基于 Wave-U-Net 的新颖的时域音源分离结构，在处理长时间序列信号时取得了较好的分离效果，并通过改进输出层和追溯预测框架等结构进行优化，同时揭示了当前 SDR 指标存在的问题并提出了改进方案。

Abstract

Models for audio source separation usually operate on the magnitude spectrum, which ignores phase information and makes separation performance dependant on hyper-parameters for the spectral front-end. Therefore, we investigate end-to-end source separation in the →

audio source separation time-domain wave-u-net architectural improvements sdr evaluation metrics

发现论文，激发创造

基于 Wave-U-Net 的语音增强改进

研究了 Wave-U-Net 结构在语音增强中的应用，发现其在时域直接建模可以考虑大的时间上下文信息的特点下，可以在 Voice Bank corpus（VCTK）数据集上的语音增强任务中提高 PESQ、CSIG、CBAK、COVL 和 SSNR 多个指标，相比于其原始的音乐中唱声分离系统而言，基于少量隐藏层的结构更适合语音增强，该结果为进一步探索语音增强在时域中的应用提供了鼓舞人心的信号，并可以作为语音识别系统的预处理步骤。

Nov, 2018

端到端音乐源分离：在波形领域是否可能？

本论文研究使用端到端模型进行音乐信号源分离，在考虑所有可用信息的基础上实现对原始音频信号（包括相位部分）的源分离。结果表明，我们提出的一种基于 Wavenet 的模型和 Wave-U-Net 的性能都可以优于 DeepConvSep，一个基于谱图的深度学习模型。

Oct, 2018

基于深度复数 U-Net 的相位感知语音增强

通过三种方式解决相位估计问题，提出了基于复数建模的 Deep Complex U-Net，极坐标复数掩蔽方法和新型的 wSDR 损失函数，在 Voice Bank 和 DEMAND 数据库上测试表明相对于之前的方法实现了最新的性能提升。

Mar, 2019

用于音频源分离的多尺度多频带 DenseNets

采用 DenseNet 架构的音频源分离方法在 SiSEC 2016 竞赛中表现优异，具有更好的信号失真比和更少的参数、更短的训练时间。

Jun, 2017

歌声的频谱绘制：U-Net 辅助的人声分割

该研究通过使用短时傅里叶变换（STFT）和 UNet 神经网络，实现了从音乐频谱图中准确分离人声元素，取得了令人瞩目的音频源分离结果。

May, 2024

语音去噪的 Wavenet

该研究提出了一种基于非因果的扩张卷积和预测目标场而不是单个目标样本的、采用监督学习方式最小化回归损失的判别式模型适应方法，旨在进行语音去噪处理，比传统幅度谱法的维纳滤波法具有更好的计算性能和感知评估效果。

Jun, 2017

基于乐器标签的端到端声源分离

本研究提出一种扩展的 Wave-U-Net 模型，通过可变数量源的端到端音乐源分离方法，并在瓶颈处使用仪器标签进行乘性调节，从而提高了分离结果，在此基础上实现了其他类型的调节，如音视频源分离和得分通知源分离。

Nov, 2018

UnivNet: 带多分辨率频谱鉴别器的神经声码器，用于高保真波形生成

该研究提出了一种名为 UnivNet 的神经声码器，利用全频带谱特征作为输入，通过添加多分辨率谱图鉴别器来解决非锐利音频信号生成的问题，并在大量演讲者信息数据集上取得最佳客观和主观结果。

Jun, 2021

多通道 U-Net 音乐源分离

通过动态加权平均和基于能量的加权策略的多通道 U-Net 模型能够有效地实现多音源分离，且训练代价较低。

Mar, 2020

波形域音乐源分离

本文比较了两种不同的音乐源分离模型：Conv-Tasnet 和 Demucs。实验结果表明，Demucs 模型通过采用恰当的数据增广技术，在音乐分离任务上优于 Conv-Tasnet 模型，同时其语音自然度表现也更佳。

Nov, 2019