May, 2023

逐帧思考:使用视频填充和预测评估视频思维链

TL;DR为了提高视频推理的能力和降低处理数百或数千帧的计算复杂度,我们提出了 VideoCOT 的新研究方向,旨在利用视觉语言模型的多模式生成能力对视频关键帧进行增强。我们引入了 VIP 数据集,其中包含各种现实生活视频和场景描述,以及两个新的视频推理任务:视频填充和场景预测,评估了各种视觉语言模型在 VIP 上的表现,证明了利用视觉语言模型和 LLM 提高视频链推理的潜力。