Jan, 2023
标签对齐前的多模式标签集成视频文本检索
Tagging before Alignment: Integrating Multi-Modal Tags for Video-Text
Retrieval
TL;DR本文提出了一种用于视频-文本检索的 TABLE(标记前对齐)网络,该网络通过标记将多模态信息显式地集成在一起,并在视觉编码器、标记编码器、文本编码器和带有标记引导的跨模态编码器的联合编码下,使用预训练的多模态专家从多模态中提取信息。实验表明,TABLE模型在MSR-VTT、MSVD、LSMDC和DiDeMo等多个视频-文本检索基准中表现出了最先进的性能。