歌声的频谱绘制:U-Net 辅助的人声分割
本文提出了一种基于 Wave-U-Net 的新颖的时域音源分离结构,在处理长时间序列信号时取得了较好的分离效果,并通过改进输出层和追溯预测框架等结构进行优化,同时揭示了当前 SDR 指标存在的问题并提出了改进方案。
Jun, 2018
研究了 Wave-U-Net 结构在语音增强中的应用,发现其在时域直接建模可以考虑大的时间上下文信息的特点下,可以在 Voice Bank corpus(VCTK)数据集上的语音增强任务中提高 PESQ、CSIG、CBAK、COVL 和 SSNR 多个指标,相比于其原始的音乐中唱声分离系统而言,基于少量隐藏层的结构更适合语音增强,该结果为进一步探索语音增强在时域中的应用提供了鼓舞人心的信号,并可以作为语音识别系统的预处理步骤。
Nov, 2018
本文提出了一种音频 - 视觉声音分离方案,在两种不同场景(语音和唱歌)中实现了低时延的最新成果。该模型基于两级网络,采用轻量级图卷积网络从面部标记中提取运动线索,然后将视觉和音频特征输入到音频 - 视觉转换器中,为目标源的隔离估计提供相当不错的结果。在第二阶段,利用音频网络增强了主要的声音。我们进行了不同的消融研究和与最先进的方法比较。最后,我们探讨了在唱声分离任务中训练语音分离模型的可转移性。
Mar, 2022
本文利用生成对抗网络(GAN)和时频掩模函数提出了一种新的人声分离框架,通过在对抗训练过程中进行混合谱分布和清洁谱分布之间的近似来进行分离,利用监督学习初始化参数并利用无监督学习进行优化,实验结果表明该框架可以提高音频分离效果。
Oct, 2017
通过三种方式解决相位估计问题,提出了基于复数建模的 Deep Complex U-Net,极坐标复数掩蔽方法和新型的 wSDR 损失函数,在 Voice Bank 和 DEMAND 数据库上测试表明相对于之前的方法实现了最新的性能提升。
Mar, 2019
该研究使用深度学习模型进行了基于掩蔽的语音信号增强和分离任务的研究,并尝试将其应用到任意类型混音的分离任务中,即通用声音分离。在此过程中,作者比较了不同的分析合成基础和网络结构,其中长短时记忆网络和时延卷积堆栈是采用时间域增强网络(ConvTasNet)的架构,对于后者,作者还提出了一些新的改进方法来进一步提高分离性能。最后,作者的研究表明,短时傅立叶变换(STFT)在通用声音分离方面表现优异,而在语音 / 非语音分离方面,长窗口的 STFT(25-50 毫秒)效果明显好于短窗口(2.5 毫秒),对于可学习的基础来说,短窗口(2.5 毫秒)一直是最佳选择。作者的最佳 方法在语音 / 非语音分离和通用声音分离方面都取得了显著的信号失真比的提高。
May, 2019
通过借鉴 Hybrid Demucs 架构,本文提出了混合谱图时域音频分离网络(HS-TasNet),结合了频谱和波形域的优势,为实时低延迟的音乐应用展现了高效分离的潜力。
Feb, 2024
该论文提出了一种基于深度学习的歌声分离方法,学习和优化了源依赖性遮罩,不需要使用后处理步骤,并引入了循环推断算法、稀疏变换步骤和学习去噪滤波器,同时也提高了单声道歌声分离的性能。
Nov, 2017
本文探讨了利用多任务学习中的歌声活动检测作为额外任务来稳定和提高语音分离性能的方法,并提出了对于每个数据集特定的问题偏差的解决方法,最终实验表明与单任务相比,该方法在分离和歌声检测方面均有较大改进。
Apr, 2018