CVPRApr, 2021

T2VLAD:文本 - 视频检索的全局 - 局部序列对齐

TL;DR本文主要设计了一种高效的全局 - 局部对齐方法,在共享的语义中心集合中,自适应地汇聚多模式视频序列和文本特征,并计算相同中心内的视频特征与文本特征之间的局部交叉模态相似性,从而实现了细致的局部比较,同时降低了交互成本。此外,还提出了一种全局对齐方法,并在三个标准的文本 - 视频检索基准测试中取得了一致的改进和领先的效果。