一种用于音乐自动标记的深度特征包模型

Aug, 2015

一种用于音乐自动标记的深度特征包模型

A Deep Bag-of-Features Model for Music Auto-Tagging

Juhan Nam, Jorge Herrera, Kyogu Lee

TL;DR本论文提出一种 two-stage learning model，首先使用无监督学习将音频轨迹的局部频谱模式投射到高维稀疏空间中，并将其作为特征包进行总结。然后，在逐层无监督学习特征包的基础上初始化深度神经网络，结合标签标注对其进行精调。在 Magnatagatune 数据集上测试表明，该模型取得了高性能的效果。

Abstract

feature learning and deep learning have drawn great attention in recent years as a way of transforming input data into more effective representations using learning algorithms. Such interest has grown in the area

feature learning deep learning music information retrieval auto-tagging neural network

发现论文，激发创造

使用预训练卷积神经网络进行多层级和多尺度特征聚合以达到音乐自动标记

本文提出了一种基于卷积神经网络（CNN）架构的音乐自动标记技术，该技术融合了多层级和多尺度特征，通过三个步骤的训练方式在音乐自动标记中表现出高效性并在 MagnaTagATune 数据集和 Million Song 数据集上超越了之前的 state-of-the-arts。实验证明该架构同样适用于迁移学习。

Mar, 2017

大规模音乐标记的端到端学习

本研究探讨了基于波形输入和基于视听特征学习的卷积神经网络的两种音乐自动标记设计范式在变量大小的数据集上表现的比较，实验结果表明当训练数据不足时，采用音乐领域假设的基于波形的模型在大规模数据场景中的表现优于基于谱图的模型。

Nov, 2017

可解释音频标签的感知音乐特征

在音乐流媒体平台时代，自动标记音乐音频的任务引起了广泛关注，驱使研究人员设计旨在提高标准数据集上性能指标的方法。本研究探讨了可解释性在自动音乐标记领域的相关性，构建了一个包含三种不同信息提取技术的工作流程，并使用这些特征训练了一个可解释的机器学习模型进行标签预测。通过在 MTG-Jamendo 数据集和 GTZAN 数据集上进行实验，我们的方法在两个任务中均超过了基线模型的性能，并在某些情况下展现出与当前最先进方法的竞争力。我们得出结论，在某些情况下，解释性的价值超过了性能的下降。

Dec, 2023

基于 CNN 的自动音乐标记模型评估

本文在三个数据集上对不同音乐标注模型进行一致的评估，并使用 ROC-AUC 和 PR-AUC 等常见评估指标提供参考结果，同时评估了模型的泛化能力。使用 PyTorch 提供预训练模型的实现，以保证可复制性。

Jun, 2020

使用深度卷积神经网络进行自动标记

本篇论文采用全卷积神经网络实现一种基于内容的自动音乐标记算法，通过在 MagnaTagATune 数据集上的实验，我们发现采用 mel-spectrogram 作为输入，4 层结构的全卷积神经网络在 AUC-ROC 分数方面达到了最先进的性能，但在 Million Song 数据集上则表明，更深的模型优于 4 层结构。实验证明 mel-spectrogram 是一种有效的时频表示方法，更复杂的模型能够从更多的训练数据中受益。

Jun, 2016

使用艺术家标签学习音乐表示

本文研究了一种用艺术家标签进行有监督特征学习的方法，提出了两个深度卷积神经网络来学习深度艺术家特征，应用于音乐分类和检索，结果表明该方法可以捕捉到音乐的一般音频特征，并且讨论了两种模型的优缺点。

Oct, 2017

使用样本级深度卷积神经网络进行多层和多尺度特征聚合的音乐分类

本论文提出了一种将预训练特征提取器聚合多级和多尺度特征的音乐分类方法，特征提取器通过使用原始波形进行样本级深度卷积神经网络训练，表现出了在多个音乐分类数据集上的最新成果。

Jun, 2017

使用原始波形的样本级深度卷积神经网络进行音乐自动标记

本文提出了一种基于样本级别深度卷积神经网络的方法，用于从音乐信号中学习表示，并取得了与先前最先进性能可比的结果，而可视化学到的滤波器说明它们对倍频谱很敏感。

Mar, 2017

通过领域对抗训练学习的稳健音乐表示的音乐自动标记

采用领域对抗训练 (DAT) 方法，结合合成噪声音乐数据和无标签噪声音乐数据，提高了音乐自动标记的性能，并加强了模型在不同噪声环境下的泛化能力。

Jan, 2024

使用原始波形的音乐自动标记样本级 CNN 架构

本文介绍了一种基于改进了的 1 维卷积神经网络架构的音乐自动标记方法，该方法采用最先进的图像分类模型 ResNets 和 SENets 构建块，并添加多级特征聚合。结果表明，此方法在 MagnaTagATune 数据集上取得了显著改进，并在 Million Song 数据集上取得了可比结果。

Oct, 2017