NIPSSep, 2022
文本自适应的多视觉原型匹配用于视频检索
Text-Adaptive Multiple Visual Prototype Matching for Video-Text Retrieval
Chengzhi Lin, Ancong Wu, Junwei Liang, Jun Zhang, Wenhang Ge...
TL;DR本文提出了一种文本自适应多视觉原型匹配模型,通过自适应聚合视频标记特征来描述视频,以解决视频和文本之间的关联模糊问题,而且此方法表现优于当前公共视频检索数据集上的最新技术。