Dec, 2023

一种用于长视频问答的简单 LLM 框架

TL;DR我们介绍了 LLoVi,这是一个用于长距离视频问答(LVQA)的基于语言的框架。我们的方法使用基于帧 / 片段级的视觉描述器和大型语言模型(如 GPT-3.5,GPT-4),结合简单且出奇有效的 LVQA 框架,将短期和长期建模方面分解为两个阶段,从而实现对整个视频的理解和问题的回答。