Apr, 2023

基于音素的神经网络模型,用于音符级别的唱歌转录

TL;DR本文中,我们提出了一种使用唱歌语言特征的方法,通过使用 mel-scaled spectrogram 和 phonetic posteriorgram(PPG)来更准确地检测唱歌声音的音符起始点。我们的方法显著提高了唱歌转录的性能,并强调了语言特征在唱歌分析中的重要性。