May, 2024

VideoTree:基于自适应树的视频表示方法用于长视频的 LLM 推理

TL;DRVideoTree是一种用于视频理解的查询自适应和分层框架,利用大型语言模型的推理能力,通过动态提取与查询相关的信息并构建基于树的表示来提高推理准确性和效率。与现有方法相比,VideoTree在EgoSchema、NExT-QA和IntentQA基准上分别实现了7.0%、2.2%和2.7%的准确度提升,并减少了40%的推理时间。