MMDec, 2023

WikiMuTe:音频音乐的语义描述的网络数据集

TL;DR使用多模态深度学习技术匹配自由形式的文本与音乐在音乐信息检索领域显示出有希望的结果。本研究提出了一个包含音乐丰富语义描述的新开放数据集 WikiMuTe,数据源于维基百科的音乐作品文章目录。使用专门的文本挖掘流程提取覆盖音乐内容各种主题的长短句描述,例如流派、风格、情感、乐器和节奏。展示了利用该数据集训练了一个联合学习文本和音频表示的模型,并进行跨模态检索。该模型在两个任务上进行评估:基于标签的音乐检索和音乐自动标注。结果表明,尽管我们的方法在多个任务上具有最先进的性能,但仍然观察到性能差异取决于用于训练的数据。