May, 2024

MVBIND: 基于嵌入空间绑定的自监督音乐视频推荐

TL;DR该研究介绍了 MVBind,一种用于跨模态检索的创新音乐视频嵌入绑定模型。通过 MVBind,能够在没有手动注释的情况下,从数据中直接获取模态间关系的内在知识。此外,为了弥补短视频缺乏相应音乐 - 视觉对数据集的不足,该研究构建了 SVM-10K(具有精选的短视频和音乐的 10K 数据集),在该数据集上,MVBind 相比其他基准模型表现出显著提高。为方便未来研究,已经发布了构建的数据集和代码。