Aug, 2022

音乐对比语音学习

TL;DR本研究旨在探讨通过自然语言与音频之间的跨模态学习实现音乐语义理解任务的方法,提出了一种名为 MusCALL 的框架,采用双重编码器架构进行跨模态学习,实现音频和描述语句的对齐,生成用于文本到音频和音频到文本检索的多模式嵌入,实验表明我们的方法在音频与文本检索任务中比基线方法表现更好,并且可成功扩展应用于流派分类和自动标签的零样本转移场景。