Mar, 2021
HiT:层次化动量对比视频-文本检索的Transformer模型
HiT: Hierarchical Transformer with Momentum Contrast for Video-Text
Retrieval
TL;DR提出了一种新的名为Hierarchical Transformer (HiT)的方法,其中包括Hierarchical Cross-modal Contrastive Matching和Momentum Cross-modal Contrast的元素,以解决现有交叉模式Transformer方法存在的局限性,并在三个主要的Video-Text检索基准数据集上实现了优越的实验结果。