Aug, 2024

MuChoMusic:评估多模态音频语言模型中的音乐理解

TL;DR本研究解决了评价多模态音频语言模型在音乐理解能力方面的挑战,提出了一个名为MuChoMusic的基准,包含了1187个经人类标注的问题,涵盖644首音乐曲目及多种音乐类型。研究发现现有模型过于依赖语言模态,强调了改善多模态集成的必要性。