Feb, 2023

受监督的多空间多粒度对齐视频文本检索

TL;DR本研究提出了一种新的多空间多粒度监督学习框架SUMA,用于学习视频和文本之间的对齐表示空间,其中初始对齐空间由一定数量的概念聚类初始化。实验结果表明,SUMA相比现有方法具有更好的性能。