基于音素的神经网络模型，用于音符级别的唱歌转录

Apr, 2023

基于音素的神经网络模型，用于音符级别的唱歌转录

A Phoneme-Informed Neural Network Model for Note-Level Singing Transcription

Sangeon Yong, Li Su, Juhan Nam

TL;DR本文中，我们提出了一种使用唱歌语言特征的方法，通过使用 mel-scaled spectrogram 和 phonetic posteriorgram（PPG）来更准确地检测唱歌声音的音符起始点。我们的方法显著提高了唱歌转录的性能，并强调了语言特征在唱歌分析中的重要性。

Abstract

Note-level automatic music transcription is one of the most representative music information retrieval (MIR) tasks and has been studied for various instruments to understand music. However, due to the lack of high-quality labeled data, transcription of many instruments is still a chall

automatic music transcription singing voice note onset detection mel-scaled spectrogram phonetic posteriorgram

发现论文，激发创造

Onsets and Frames: 双目标钢琴转录

用深度卷积和递归神经网络来提高多声部钢琴音乐转录，在预测音符的开始和结束时间方面取得了相对 100% 的提升，并且通过预测标准化音频的相对速度得到更自然的转录结果。

Oct, 2017

神经参数化唱歌合成器

利用基于 WaveNet 架构的新型合成模型，对参数声码器产生的特征进行建模，并使用混合密度输出，实现对每个帧的预测，避免了过度拟合，在预测错误的情况下进行自回归生成算法的正则化，成功将和声、非周期性和有声 / 无声组件预测在一起，比现有的参数化统计方法和拼接方法更为有效。

Apr, 2017

基于 PPG 的对抗性表示学习唱声转换

该研究提出了一种基于 PPGs 和 mel spectrograms 的端到端模型，实现了稳定的歌唱声音转换，并通过采用对抗性歌手混淆模块和 mel-regressive 表示学习模块提高了转换的效果，并在客观和主观实验中证明了该方法在音色和旋律方面的优越性。

Oct, 2020

SING：符号到乐器神经生成器

本研究提出了一种基于深度学习的轻量级神经音频合成器 SING，其可以通过单一解码器从近 1000 种乐器中生成音符，并且通过新的损失函数将生成的和目标波形的对数谱距离最小化，提高了音质的感知品质。与基于 WaveNet 的最新自动编码器相比，在训练和推理方面分别快 32 倍和快 2500 倍。

Oct, 2018

有监督音乐转录的不变性和数据增强

本文探讨了基于帧的音乐转录的各种模型，重点在于达到人类录音的最新的方法。本文中讨论的具有平移不变性的网络，结合了传统的滤波器和卷积神经网络，在 2017 年 MIREX 多基频估计评估测试中成为最佳性能模型。本类模型在 log 频率域中共享参数，利用音乐的频率不变性来减少模型参数数量并避免对训练数据的过度拟合。本文中的所有模型都是通过 MusicNet 数据集中具有标记的数据进行监督训练的，并通过随机保持标签的音调变换进行增强。

Nov, 2017

Deep Autotuner: 用于歌唱表演的音高校准网络

本论文介绍了一种基于数据驱动的自动音高校正方法，该方法利用歌唱声音和伴奏音频相应的频谱图之间的关系来预测音符级别的音高变化。该方法通过神经网络模型进行训练，包括卷积层和门控循环单元，可适用于自由即兴和协调音乐演唱。

Feb, 2020

对抗训练的端到端朝鲜语歌声合成系统

本文提出了一种从歌词和符号旋律生成端到端的韩国歌唱声音合成系统，包括三种新颖方法：1）语音增强掩蔽，2）文本和音高的本地条件对超分辨率网络，3）条件对抗训练。该系统包括两个主要模块：从给定的输入信息生成 mel-spectrogram 的 mel-synthesis 网络和将生成的 mel-spectrogram 上采样成 linear-spectrogram 的超分辨率网络。在 mel-synthesis 网络中，应用语音增强掩蔽仅从输入文本生成隐式谐振峰掩蔽，这使得歌唱声音的语音控制更加准确。此外，本文还表明了本地文本和音高和条件对抗训练是超分辨率过程中生成真实人类歌声的关键。最后，通过定量和定性评估，证实了所有提出方法的有效性。

Aug, 2019

提高歌声旋律提取的谐波敏感性和预测稳定性

本论文通过在输入特征上的修改和训练目标上的修改提出了一种改善性能的旋律提取模型，实验证明该方法对于歌唱旋律提取是有效的。

Aug, 2023

无监督唱声转换

该论文提出了一种基于深度学习的歌唱声音转换方法，该方法不需要以文本或音符为条件，并可直接将一个歌手的音频转换为另一个歌手的声音。通过使用单个 CNN 编码器和一个分类器来进行训练和模型改进，每个歌手都表示为一个嵌入式向量，以便检测其独特的音乐特征。通过使用数据增强技术以及新的训练损失和基于后转换的协议，该方法在较小的数据集上取得了良好的效果。

Apr, 2019

深度多音 ADSR 钢琴音符转录

研究了一种迟到融合方法和手工隐藏马尔可夫模型在钢琴转录中的应用，利用 ADSR 包络获取转移概率进行音符分段并经过最终的二进制决策规则，从而实现对完整音符的准确转换。在 MAPS 数据集上取得了最先进的结果，并能够大幅超越其他方法。

Jun, 2019