Aug, 2019

通过受监督的深度 CCA 实现跨模式音乐视频检索的音频 - 视觉嵌入

TL;DR使用 S-DCCA 算法构建跨模态音乐视频检索模型,其中采用基于 Attention 机制 LSTM 模型选择 top k 音频块,使得得到的局部音频摘要能够很好地代表整个音频内容,构建的深度学习模型实现了音频和视频语义的跨模态学习,从而实现了跨模态情感相似的音乐视频检索,并在构造的 10K 数据集上得到了良好的 MAP 和 precision-recall 表现。