ECCVNov, 2022

所有组合都相等吗?使用多空间学习将文本和视觉特征结合以进行基于文本的视频检索

TL;DR本文旨在解决跨模态视频检索问题,具体聚焦于文本到视频的检索,并探讨将多种不同的文本和视觉特征最佳组合以生成多个联合特征空间的方法。通过多空间学习过程训练网络结构,引入额外的 softmax 运算来修正推断的查询 - 视频相似性,并在三个大规模数据集上进行实验验证,以记录所提出网络的表现。