FMA:一个用于音乐分析的数据集
使用多模态深度学习技术匹配自由形式的文本与音乐在音乐信息检索领域显示出有希望的结果。本研究提出了一个包含音乐丰富语义描述的新开放数据集 WikiMuTe,数据源于维基百科的音乐作品文章目录。使用专门的文本挖掘流程提取覆盖音乐内容各种主题的长短句描述,例如流派、风格、情感、乐器和节奏。展示了利用该数据集训练了一个联合学习文本和音频表示的模型,并进行跨模态检索。该模型在两个任务上进行评估:基于标签的音乐检索和音乐自动标注。结果表明,尽管我们的方法在多个任务上具有最先进的性能,但仍然观察到性能差异取决于用于训练的数据。
Dec, 2023
介绍了一个用于音频视觉分析音乐表演的数据集,其中包括 44 个简单的多乐器古典音乐作品的音频和视频录音、乐谱以及基于帧和音符的基础事实标注文件。该数据集可以用于 MIR 任务的开发和评估,以及为未来的比较提供基线系统。
Dec, 2016
通过使用基于人工智能的生成音乐系统为音乐信息检索(MIR)任务生成训练数据,我们探讨了更广泛的概念。为了启动这个研究方向,我们进行了一项初步实验,利用 MusicGen 创建了一个完全人工的音乐数据集,在此基础上我们训练了一个流派分类器。我们制作了超过 50,000 个以流派为条件的文本描述,并生成了一系列覆盖五种音乐流派的音乐片段。我们的初步结果表明,所提出的模型能够从人工音乐曲目中学习到流派特定的特征,并在现实世界的音乐录音中推广得很好。
Nov, 2023
文中提出的 MU-LLaMA 模型通过 MusicQA 数据集的训练,在音乐问答和音乐配音生成方面取得了出色的表现,超越了当前领先的模型,并为 T2M-Gen 研究领域带来了有希望的进展。
Aug, 2023
我们提出了一种基于公共工具或 API 的创新型自动音频说明生成流程,并构建了一个大规模、高质量的音频语言数据集 Auto-ACD,其中包含超过 190 万个音频文本对。通过在我们的数据集上训练流行模型并展示在各种下游任务(包括音频语言检索、音频说明和环境分类)上的性能改进,证明了所提出数据集的有效性。此外,我们建立了一个新颖的测试集,并为音频文本任务提供了一个基准。该数据集将在此 https URL 上发布。
Sep, 2023
本文介绍了一个新的大规模音乐数据集 MusicNet,旨在为音乐研究的机器学习方法提供监督和评估,该数据集由 10 位作曲家创作的 11 种乐器的数百个自由许可的古典音乐录音以及关于它们的时间标签组成,其中包含的多标签分类任务以及多项基于机器学习结构的性能评估表明了末端到末端的神经网络在音符预测方面的学习效果最佳。
Nov, 2016
该研究提出使用音乐音频表示基准来提高音乐信息检索任务的性能,包括定义四个层次的综合分类法,并建立了 14 个任务的统一协议。研究表明,最近提出的大规模预训练音乐语言模型在大多数任务中表现最佳。
Jun, 2023
本文介绍了 Melon Playlist Dataset 这个基于 Melon 音乐流媒体平台的公共音乐数据集,包括 649,091 首曲目和 148,826 个关联播放列表,涵盖了 30,652 种标签,适用于音乐信息检索等任务。该数据集提供了基准解决方案,可用于支持建立具有冷启动问题抵抗力的系统。
Jan, 2021
本研究探讨了基于波形输入和基于视听特征学习的卷积神经网络的两种音乐自动标记设计范式在变量大小的数据集上表现的比较,实验结果表明当训练数据不足时,采用音乐领域假设的基于波形的模型在大规模数据场景中的表现优于基于谱图的模型。
Nov, 2017
该研究使用 MAESTRO 数据集中的音符事件作为中间表示,训练了一系列的神经网络模型,用于转录、合成和生成具备连贯乐曲结构的音频波形,从而实现了跨六个数量级(0.1ms 到 100s)的音频合成。
Oct, 2018