EMNLPOct, 2022

LiteVL:增强空间 - 时间建模的高效视频 - 语言学习

TL;DR本文提出 LiteVL 模型,结合 BLIP 图像语言模型,通过使用动态时态缩放,给图像编码器添加时间注意力模块,并提出非参数池化机制,以自适应地重新加权文本条件下的细粒度视频嵌入,取得了良好的性能,即使没有进行任何视频 - 语言预训练。