Feb, 2023

STOA-VLP: 视频-语言预训练中物体和动作的时空建模

TL;DR本文提出STOA-VLP,一个在预训练阶段采用细粒度信息的框架,它在空间和时间维度上共同建模对象和操作信息,并设计了两个辅助任务来更好地将两种信息融入到视频-语言模型的预训练过程中。实验表明,该模型在视频字幕生成、文本-视频检索和视频问答等任务上取得了显著的效果提升。