Dec, 2021

促使视觉-语言模型实现高效视频理解

TL;DR本研究提出了一种简单但强大的基准线以有效地适应预训练的I-VL模型,并利用其强大的资源-hungry视频理解任务的能力进行最小化的训练,通过几个随机向量连续提示向量进行优化,将视频相关任务转化为与预训练目标相同的格式。对于行动识别,动作定位和文本-视频检索的10个公共基准测试,尽管优化参数显著减少,但在封闭集,少量样本和零样本情况下,我们实现了与现有方法相当或最新的性能,实验上进行了广泛的消融研究以分析关键组件以与静态图像和视频之间的差距。