PrimaDNN：面向特征的 DNN 歌唱技巧检测定制

Jun, 2023

PrimaDNN：面向特征的 DNN 歌唱技巧检测定制

PrimaDNN': A Characteristics-aware DNN Customization for Singing Technique Detection

Yuya Yamamoto, Juhan Nam, Hiroko Terasawa

TL;DR本文提出了一种基于深度神经网络且考虑数据特征的 CRNN 模型 PrimaDNN，使用音高信息和多分辨率 Mel 频谱作为输入特征，采用 Squeeze-and-excitation (SENets) 与 Instance normalization 卷积模块，成功检测 J-POP 歌唱技巧，并获得了最佳的 44.9% 的宏平均 F 计量结果。

Abstract

Professional vocalists modulate their voice timbre or pitch to make their vocal performance more expressive. Such fluctuations are called singing techniques. Automatic detection of singing techniques from audio tracks

singing techniques deep neural network primadnn audio tracks pitch information

发现论文，激发创造

基于卷积神经网络的歌声合成

本文提出了一种基于卷积神经网络的歌声合成方法，通过建立对唱歌音符特征序列和声学特征序列之间关系的卷积神经网络模型，生成长时序的声学特征序列以去除参数生成算法，主观听感测试结果表明该方法能够产生自然流畅的歌声。

Apr, 2019

基于卷积深度神经网络的深度卡拉 OK：从音乐混音中提取人声

通过训练一个拥有十亿参数的卷积深度神经网络来从真实世界的音乐混合物中提供声音分离的理想二值掩蔽的概率估计，以对抗更传统的线性方法，该方法可以用于自动消除卡拉 OK 类型应用程序中的歌唱声。

Apr, 2015

基于音素的神经网络模型，用于音符级别的唱歌转录

本文中，我们提出了一种使用唱歌语言特征的方法，通过使用 mel-scaled spectrogram 和 phonetic posteriorgram（PPG）来更准确地检测唱歌声音的音符起始点。我们的方法显著提高了唱歌转录的性能，并强调了语言特征在唱歌分析中的重要性。

Apr, 2023

多模态混合深度神经网络用于语音增强

本研究提出了一种新的深度学习模型，结合了视觉提示信息和音频信号，采用双向长短时记忆网络进行特征集成，以提高噪声下语音信号增强的质量。

Jun, 2016

Deep Autotuner: 用于歌唱表演的音高校准网络

本论文介绍了一种基于数据驱动的自动音高校正方法，该方法利用歌唱声音和伴奏音频相应的频谱图之间的关系来预测音符级别的音高变化。该方法通过神经网络模型进行训练，包括卷积层和门控循环单元，可适用于自由即兴和协调音乐演唱。

Feb, 2020

使用深度自回归神经网络进行歌声合成的声学建模

本文提出了使用自回归神经网络对歌声合成进行声学建模的方法，以更好地描述连续帧音频特征之间的依赖关系。实验结果表明，使用自回归模型的方法可以更有效地产生包含颤音的 F0 轮廓，并且可以比使用递归神经网络的传统方法实现更好的客观和主观性能。

Jun, 2019

无监督唱声转换

该论文提出了一种基于深度学习的歌唱声音转换方法，该方法不需要以文本或音符为条件，并可直接将一个歌手的音频转换为另一个歌手的声音。通过使用单个 CNN 编码器和一个分类器来进行训练和模型改进，每个歌手都表示为一个嵌入式向量，以便检测其独特的音乐特征。通过使用数据增强技术以及新的训练损失和基于后转换的协议，该方法在较小的数据集上取得了良好的效果。

Apr, 2019

PitchNet: 一种用于音高估计的全卷积神经网络

在音乐和声音处理领域中，音高提取起着关键作用。本研究介绍了 “PitchNet”，一种专为从人类歌唱声音中提取音高而量身定制的卷积神经网络，包括 a cappella 演唱。将自相关与深度学习技术融合，PitchNet 旨在优化音高检测的准确性。通过对包含合成声音、歌剧录音和时间拉伸元音的数据集进行评估，证明了其有效性。这项工作为音乐和语音环境中的音高提取铺平了道路。

Aug, 2023

越南流行音乐歌手声音分类的深度学习方法

本文提出了一种基于分析越南流行音乐的新方法来识别歌手姓名的方法，并采用声音分段检测和唱声分离作为预处理步骤，利用 Mel 频率倒谱系数提取输入特征来构建歌手分类器，最终在一个包含 18 位著名歌手的 300 首越南歌曲的数据集上获得了 92.84% 的准确率，是相同数据集上其他方法中最佳的结果。

Feb, 2021

DurIAN-SC: 能够考虑音长信息的歌声转换注意力网络系统

本文介绍了一种歌声转换算法，可以使用目标讲话者的正常语音数据生成高质量的目标讲话者歌声，并大大提高了歌声转换系统的鲁棒性和转换效率。

Aug, 2020