随机加权卷积神经网络(CNNs)用于(音乐)音频分类
本文介绍了使用几种不同的卷积神经网络对音频进行分类,发现在大型数据集上运用图像分类中的卷积神经网络架构对于音频分类也十分有效,使用嵌入分类器的模型对音频事件检测的任务表现优于对原始特征的直接使用。
Sep, 2016
本文介绍了一种基于改进了的 1 维卷积神经网络架构的音乐自动标记方法,该方法采用最先进的图像分类模型 ResNets 和 SENets 构建块,并添加多级特征聚合。结果表明,此方法在 MagnaTagATune 数据集上取得了显著改进,并在 Million Song 数据集上取得了可比结果。
Oct, 2017
本论文提出了一种将预训练特征提取器聚合多级和多尺度特征的音乐分类方法,特征提取器通过使用原始波形进行样本级深度卷积神经网络训练,表现出了在多个音乐分类数据集上的最新成果。
Jun, 2017
通过计算基于传统音频特征和卷积神经网络学到的表示之间的相似性,以及测量激活映射和音频特征之间的相似性,本研究旨在探索使用人工设计音频特征的方法来提高卷积神经网络的可解释性,以实现从用户生成的音乐录音中识别乐器的目标。
Jul, 2019
本文研究了音频领域中可扩展的分类模型,并使用两种不同的基于样本级的深度卷积神经网络模型实现。通过对各种声音类别的测试表明,这些模型达到了最先进的性能水平,并可视化了滤波器在网络中的变化。
Dec, 2017
本文提出了一种基于卷积神经网络(CNN)架构的音乐自动标记技术,该技术融合了多层级和多尺度特征,通过三个步骤的训练方式在音乐自动标记中表现出高效性并在 MagnaTagATune 数据集和 Million Song 数据集上超越了之前的 state-of-the-arts。实验证明该架构同样适用于迁移学习。
Mar, 2017
本研究引入了一种卷积循环神经网络(CRNN)进行音乐标记。研究中对比了使用 CNN 的三种不同结构来进行音乐标记的性能和每个样本的训练时间,并表明相对其他模型,CRNN 具有更好的效果和更少的参数和更快的训练时间, 表明其混合结构在音乐特征提取和特征总结中的有效性。
Sep, 2016
本文在三个数据集上对不同音乐标注模型进行一致的评估,并使用 ROC-AUC 和 PR-AUC 等常见评估指标提供参考结果,同时评估了模型的泛化能力。使用 PyTorch 提供预训练模型的实现,以保证可复制性。
Jun, 2020
本文介绍了一种基于转移学习的音乐分类和回归任务的方法,使用预训练的卷积网络提取出用于多个层次的特征向量进行音乐分类及回归。经实验证明,相较于传统的低、高层次的音乐特征和 MFCC 特征,使用卷积神经网络 (convnet) 作为特征提取方法的结果更好且具有通用性。
Mar, 2017