Oct, 2023

零样本音乐标签的联合音乐和语言注意力模型

TL;DR我们提出了一个零样本音频标记系统,使用 JMLA 模型来解决开放式音乐标记问题,并通过引入稠密注意连接来提高编码器和解码器之间的信息流动。我们收集了一个大规模的音乐和描述数据集,并使用 ChatGPT 将原始描述转化为形式化和多样化的描述以训练 JMLA 模型。我们的提出的 JMLA 系统在 GTZAN 数据集上实现了 64.82% 的零样本音频标记准确率,优于以前的零样本系统,并在 FMA 和 MagnaTagATune 数据集上实现了与以前系统相当的结果。