Nov, 2017

有监督音乐转录的不变性和数据增强

TL;DR本文探讨了基于帧的音乐转录的各种模型,重点在于达到人类录音的最新的方法。本文中讨论的具有平移不变性的网络,结合了传统的滤波器和卷积神经网络,在 2017 年 MIREX 多基频估计评估测试中成为最佳性能模型。本类模型在 log 频率域中共享参数,利用音乐的频率不变性来减少模型参数数量并避免对训练数据的过度拟合。本文中的所有模型都是通过 MusicNet 数据集中具有标记的数据进行监督训练的,并通过随机保持标签的音调变换进行增强。