Apr, 2022

MILES: 注入语义来实现视频文本检索的视觉 BERT 预训练

TL;DR本文应用了基于遮蔽的视觉建模(Masked visual modeling)技术在双编码器(dual-encoder)架构下进行视频文本预训练,并利用额外的视频编码器作为 “tokenizer” 去产生预测目标,并通过在空间和时间维度上进行推理来得到修正的视觉特征,以此提高局部视觉特征和跨模态对齐性,在四个数据集上均优于最先进的文本至视频检索方法。