一种用于长视频问答的简单 LLM 框架

Dec, 2023

一种用于长视频问答的简单 LLM 框架

A Simple LLM Framework for Long-Range Video Question-Answering

Ce Zhang, Taixi Lu, Md Mohaiminul Islam, Ziyang Wang, Shoubin Yu...

TL;DR我们介绍了 LLoVi，这是一个用于长距离视频问答（LVQA）的基于语言的框架。我们的方法使用基于帧 / 片段级的视觉描述器和大型语言模型（如 GPT-3.5，GPT-4），结合简单且出奇有效的 LVQA 框架，将短期和长期建模方面分解为两个阶段，从而实现对整个视频的理解和问题的回答。

Abstract

We present llovi, a language-based framework for long-range video question-answering (lvqa). Unlike prior →

llovi lvqa long-range video visual captioner large language model

发现论文，激发创造

太多的帧，不全是有用的：长篇视频问答的高效策略

长篇视频中的关键帧选择和顺序感知字幕生成能够显著减少信息冗余，我们提出的 LVNet 框架通过两种新的方法在 LVQA 基准数据集上实现了最先进的性能。

Jun, 2024

用于高效长视频问答的基于检索的视频语言模型

使用检索式视频语言模型为长视频问答提供了一种简单而有效的方法，通过识别和选择最相关的视频片段并使用其关联的视觉标记作为上下文，从而降低了视频令牌的数量，消除了噪音干扰，并提高了系统性能。

Dec, 2023

LifelongMemory: 利用 LLM 为参照视频中的问题提供答案

通过使用多个预训练模型从广泛的自我中心视频内容中回答查询，本研究引入了 LifelongMemory，这是一种利用大型语言模型和视觉语言模型的新框架，以解决在复杂的视觉语言任务中捕捉长距离时间依赖关系的问题。

Dec, 2023

LongVLM：通过大型语言模型实现高效长视频理解

使用长视频理解任务中的 Large Language Models（LLMs）面临的挑战，本文提出了一种名为 LongVLM 的 VideoLLM 模型，通过分解长视频为短期片段，并使用分层令牌合并模块编码局部特征，维护顺序，整合全局语义信息，实现对长期视频的全面理解。实验证明了该模型在视频理解任务中的优越性能。

Apr, 2024

考拉：关键帧条件化长视频 - LLM

提出了一种轻量级自监督方法，将可学习的时空查询引入预训练模型以适应长视频，通过在 HowTo100M 数据集上进行训练，并在零样本长视频理解基准测试中表现出良好性能。

Apr, 2024

长视频理解语言库

本文介绍了一种语言仓库 (LangRepo)，用于长文本视频理解，通过维护简明有结构信息作为可解释的（即全文本）表示。该仓库基于多尺度视频块进行迭代更新，并引入了专注于修剪文本中的冗余信息和在各个时间尺度提取信息的写入和读取操作。该提出的框架在包括 EgoSchema、NExT-QA、IntentQA 和 NExT-GQA 等无监督视觉问答基准测试上进行评估，表现出最新最好的性能。我们的代码可在此链接获得：https:// 此链接。

Mar, 2024

一个多模态语言模型中理解长视频的方法

利用多模态视频理解框架，在长视频和细粒度动作识别基准测试中展示了最前沿的性能表现。

Mar, 2024

LLMs 迎接长视频：LLMs 中使用互动视觉适配器提升长视频理解

通过使用交互式视觉适配器 (IVA) 在大型语言模型（LLMs）内部增强与细粒度视觉元素的互动，我们提出的视频 - LLM 通过适当的长视频建模和精确的视觉交互，实现了对长视频内容的全面理解，并显著提高了长视频问答任务的性能。

Feb, 2024

VLM-Eval: 视频大型语言模型的通用评估

本文提出了一个统一的评估方法，包括字幕、问答、检索和行动识别等多个视频任务，展示了基于 GPT 的评估方法在多个方面可以与人类一样的表现，同时也展示了一种简单的基准方法 Video-LLaVA，在评估视频 LLMs 时优于现有方法。此外，我们还在实际驾驶场景中评估了视频 LLMs 的有效性，并展示了令人鼓舞的识别和推理能力。希望我们的工作能为视频 LLMs 提供一个统一的评估方法，并帮助扩展更多实际应用场景。

Nov, 2023

VideoTree：基于自适应树的视频表示方法用于长视频的 LLM 推理

VideoTree 是一种用于视频理解的查询自适应和分层框架，利用大型语言模型的推理能力，通过动态提取与查询相关的信息并构建基于树的表示来提高推理准确性和效率。与现有方法相比，VideoTree 在 EgoSchema、NExT-QA 和 IntentQA 基准上分别实现了 7.0%、2.2% 和 2.7% 的准确度提升，并减少了 40% 的推理时间。

May, 2024