Mar, 2024

使用 VLM 进行零 - shot 视频问答:图像栅格能表达视频的价值

TL;DR该研究提出了一种简洁而新颖的策略,利用图像网格的形式,将视频转化为单个复合图像,从而实现了对视频进行直接的高性能视觉语言模型的应用,无需任何视频数据训练,并在十个零样本视频问答基准中的九个基准中超越现有方法。