AAAIJan, 2023

标签对齐前的多模式标签集成视频文本检索

TL;DR本文提出了一种用于视频 - 文本检索的 TABLE(标记前对齐)网络,该网络通过标记将多模态信息显式地集成在一起,并在视觉编码器、标记编码器、文本编码器和带有标记引导的跨模态编码器的联合编码下,使用预训练的多模态专家从多模态中提取信息。实验表明,TABLE 模型在 MSR-VTT、MSVD、LSMDC 和 DiDeMo 等多个视频 - 文本检索基准中表现出了最先进的性能。