Dec, 2021
一次搞定——用于视频检索的多模态融合Transformer
Everything at Once -- Multi-modal Fusion Transformer for Video Retrieval
TL;DR本文提出一种基于多模态、模态无关的融合变压器方法,通过交换多个模态之间的信息并将其整合成一个联合的多模态表示,从而获得聚合多模态时态信息的嵌入,可用于零-shot检索和分类。我们在HowTo100M数据集上训练模型,并在四个具有挑战性的基准数据集上评估结果,取得了零-shot视频检索和零-shot视频行动定位的最新成果。