Aug, 2022

MuLan: 音乐音频与自然语言的联合嵌入

TL;DRMuLan 是一种新型的声学模型,通过将音乐音频直接链接到自由形式的文字注释,构建与各种音乐流派和文本样式兼容的音频 - 文本表示,具有真正的零样本功能,可用于传输学习、零样本音乐标记、音乐领域语言理解和跨模态检索应用等。