基于卷积深度神经网络的深度卡拉 OK：从音乐混音中提取人声

Apr, 2015

基于卷积深度神经网络的深度卡拉 OK：从音乐混音中提取人声

Deep Karaoke: Extracting Vocals from Musical Mixtures Using a Convolutional Deep Neural Network

Andrew J.R. Simpson, Gerard Roma, Mark D. Plumbley

TL;DR通过训练一个拥有十亿参数的卷积深度神经网络来从真实世界的音乐混合物中提供声音分离的理想二值掩蔽的概率估计，以对抗更传统的线性方法，该方法可以用于自动消除卡拉 OK 类型应用程序中的歌唱声。

Abstract

Identification and extraction of singing voice from within musical mixtures is a key challenge in source separation and machine audition.

singing voice source separation deep neural networks convolutional dnn musical mixtures

发现论文，激发创造

基于卷积神经网络的歌声合成

本文提出了一种基于卷积神经网络的歌声合成方法，通过建立对唱歌音符特征序列和声学特征序列之间关系的卷积神经网络模型，生成长时序的声学特征序列以去除参数生成算法，主观听感测试结果表明该方法能够产生自然流畅的歌声。

Apr, 2019

联合检测和分离歌声：一种多任务方法

本文探讨了利用多任务学习中的歌声活动检测作为额外任务来稳定和提高语音分离性能的方法，并提出了对于每个数据集特定的问题偏差的解决方法，最终实验表明与单任务相比，该方法在分离和歌声检测方面均有较大改进。

Apr, 2018

应用于歌声分离的对抗半监督音频源分离技术

本文介绍了一种新的音乐源分离算法，使用对抗训练让分离器的输出更加真实，并取得了对于歌声分离的较好效果。

Oct, 2017

无监督唱声转换

该论文提出了一种基于深度学习的歌唱声音转换方法，该方法不需要以文本或音符为条件，并可直接将一个歌手的音频转换为另一个歌手的声音。通过使用单个 CNN 编码器和一个分类器来进行训练和模型改进，每个歌手都表示为一个嵌入式向量，以便检测其独特的音乐特征。通过使用数据增强技术以及新的训练损失和基于后转换的协议，该方法在较小的数据集上取得了良好的效果。

Apr, 2019

使用跳过 - 滤波连接和循环推理时间频率掩模的单声道歌声分离

该论文提出了一种基于深度学习的歌声分离方法，学习和优化了源依赖性遮罩，不需要使用后处理步骤，并引入了循环推断算法、稀疏变换步骤和学习去噪滤波器，同时也提高了单声道歌声分离的性能。

Nov, 2017

用于计算机听觉的源分离和深度可分离卷积

提出一种将源分离和最先进的表示学习技术相结合的特征表示方法来优化计算机听觉（即机器听力），在一组挑战性的电子舞曲（EDM）数据集上训练深度可分离卷积神经网络，将其性能与操作源分离和标准光谱图的卷积神经网络进行比较，表明在有限数据环境下，源分离提高了分类性能。

Dec, 2020

SingFake: 唱歌声深度伪造检测

提出了歌声深度伪造检测任务，创建了第一个真实数据集 SingFake，包含 40 位歌手 5 种语言的 28.93 小时真实歌曲和 29.40 小时深度伪造歌曲片段，评估了四个最先进的口语对抗系统，发现在 SingFake 上训练相对于在口语测试数据上训练有显著改进，但也提出了未知歌手、通信编解码器、语言和音乐背景等挑战。

Sep, 2023

基于生成对抗网络的歌声分离技术 SVSGAN

本文利用生成对抗网络（GAN）和时频掩模函数提出了一种新的人声分离框架，通过在对抗训练过程中进行混合谱分布和清洁谱分布之间的近似来进行分离，利用监督学习初始化参数并利用无监督学习进行优化，实验结果表明该框架可以提高音频分离效果。

Oct, 2017

Demucs: 深度源音频分离器及其在额外未标注数据中的应用

本文使用深度学习等方法对音乐进行源分离研究，提出了一种卷积和循环的模型，同时提出了一种新的方法来利用无标签的音乐数据，这些方法比现有的方法表现更好。

Sep, 2019

可微分参数源模型的无监督音乐源分离

本文提出了一种无监督的基于模型的深度学习方法，用于音频源分离，该方法通过参数化源过滤器模型对每个源进行建模，并使用神经网络以基本频率估计源模型的参数来重构观察到的混合音频信号，实验证明该方法具有较高的数据效率和好的分离效果。

Jan, 2022