EMNLPOct, 2022
LiteVL:增强空间 - 时间建模的高效视频 - 语言学习
LiteVL: Efficient Video-Language Learning with Enhanced Spatial-Temporal Modeling
Dongsheng Chen, Chaofan Tao, Lu Hou, Lifeng Shang, Xin Jiang...
TL;DR本文提出 LiteVL 模型,结合 BLIP 图像语言模型,通过使用动态时态缩放,给图像编码器添加时间注意力模块,并提出非参数池化机制,以自适应地重新加权文本条件下的细粒度视频嵌入,取得了良好的性能,即使没有进行任何视频 - 语言预训练。