May, 2023

从文本监督中学习音乐序列表示

TL;DR本文提出了一种新的文本监督预训练方法 MUSER,采用音频 - 频谱 - 文本三模态对比学习框架,通过任何形式的元数据模板来帮助文本输入,从标记音频中挖掘更好的音乐序列表示,具有比当前数据密集型预训练方法更灵活地适应下游任务以及只需要 0.056%的预训练数据就能达到最先进性能的优势。