Mar, 2024

VideoAgent: 基于大型语言模型的长视频理解

TL;DR利用一个新型的基于代理的系统,以长篇视频理解为挑战,通过交互性推理和规划来处理长时间的多模式序列,同时使用大型语言模型作为中央代理来识别和编译关键信息以回答问题,视觉语言基础模型用于翻译和检索视觉信息。在具有挑战性的 EgoSchema 和 NExT-QA 基准测试中,VideoAgent 的零样本准确率分别达到了 54.1% 和 71.3%,仅使用平均 8.4 和 8.2 帧。这些结果证明了我们方法在效果和效率上优于当前技术水平,突显了基于代理的方法在提升长篇视频理解方面的潜力。