Jun, 2024

DrVideo: 基于文档检索的长视频理解

TL;DR我们提出了 DrVideo,它是一个基于文档检索的系统,用于长视频理解。我们的关键思想是将长视频理解问题转化为长文档理解任务,以有效利用大型语言模型的能力。通过将长视频转化为基于文本的长文档来检索关键帧并增强这些帧的信息,然后采用基于代理的迭代循环不断搜索缺失的信息、增强相关数据,并在收集足够的与问题相关的信息后以思维链的方式提供最终预测。大量的实验证实了我们方法的有效性。DrVideo 在长视频基准测试上的准确性优于现有的最先进方法,在 EgoSchema 基准测试上提高了 3.8%的准确性,在 MovieChat-1K break 模式上提高了 17.9%,在 MovieChat-1K 全球模式上提高了 38.0%,在 LLama-Vid QA 数据集上提高了 30.2%(超过 60 分钟)。