多尺度嵌入卷积神经网络在音乐标签识别中的应用 (MsE-CNN)
本文提出了一种基于卷积神经网络(CNN)架构的音乐自动标记技术,该技术融合了多层级和多尺度特征,通过三个步骤的训练方式在音乐自动标记中表现出高效性并在 MagnaTagATune 数据集和 Million Song 数据集上超越了之前的 state-of-the-arts。实验证明该架构同样适用于迁移学习。
Mar, 2017
本论文提出了一种将预训练特征提取器聚合多级和多尺度特征的音乐分类方法,特征提取器通过使用原始波形进行样本级深度卷积神经网络训练,表现出了在多个音乐分类数据集上的最新成果。
Jun, 2017
本文介绍了一种基于改进了的 1 维卷积神经网络架构的音乐自动标记方法,该方法采用最先进的图像分类模型 ResNets 和 SENets 构建块,并添加多级特征聚合。结果表明,此方法在 MagnaTagATune 数据集上取得了显著改进,并在 Million Song 数据集上取得了可比结果。
Oct, 2017
本文提出了一种基于样本级别深度卷积神经网络的方法,用于从音乐信号中学习表示,并取得了与先前最先进性能可比的结果,而可视化学到的滤波器说明它们对倍频谱很敏感。
Mar, 2017
本篇论文采用全卷积神经网络实现一种基于内容的自动音乐标记算法,通过在 MagnaTagATune 数据集上的实验,我们发现采用 mel-spectrogram 作为输入,4 层结构的全卷积神经网络在 AUC-ROC 分数方面达到了最先进的性能,但在 Million Song 数据集上则表明,更深的模型优于 4 层结构。实验证明 mel-spectrogram 是一种有效的时频表示方法,更复杂的模型能够从更多的训练数据中受益。
Jun, 2016
本文在三个数据集上对不同音乐标注模型进行一致的评估,并使用 ROC-AUC 和 PR-AUC 等常见评估指标提供参考结果,同时评估了模型的泛化能力。使用 PyTorch 提供预训练模型的实现,以保证可复制性。
Jun, 2020
本研究引入了一种卷积循环神经网络(CRNN)进行音乐标记。研究中对比了使用 CNN 的三种不同结构来进行音乐标记的性能和每个样本的训练时间,并表明相对其他模型,CRNN 具有更好的效果和更少的参数和更快的训练时间, 表明其混合结构在音乐特征提取和特征总结中的有效性。
Sep, 2016
本文介绍了使用几种不同的卷积神经网络对音频进行分类,发现在大型数据集上运用图像分类中的卷积神经网络架构对于音频分类也十分有效,使用嵌入分类器的模型对音频事件检测的任务表现优于对原始特征的直接使用。
Sep, 2016
该论文提出了一种新的卷积神经网络 (CNN) 架构,通过使用具有不同计算复杂度的多分支网络,在不同的尺度上频繁合并特征,以使用更少的计算实现多尺度特征,并在目标识别和语音识别任务上显著提高了模型效率和性能。
Jul, 2018