NIPSSep, 2022

文本自适应的多视觉原型匹配用于视频检索

TL;DR本文提出了一种文本自适应多视觉原型匹配模型,通过自适应聚合视频标记特征来描述视频,以解决视频和文本之间的关联模糊问题,而且此方法表现优于当前公共视频检索数据集上的最新技术。