HawkEye: 训练以视频为基础的文本语言模型

Mar, 2024

HawkEye: 训练以视频为基础的文本语言模型

HawkEye: Training Video-Text LLMs for Grounding Text in Videos

Yueqian Wang, Xiaojun Meng, Jianxin Liang, Yuxuan Wang, Qun Liu...

TL;DR我们提出了 HawkEye，这是第一个完全以文本形式进行时间视频定位的视频 - 文本 LLM，并构建了 InternVid-G，这是一个具有分段级字幕和负跨度的大规模视频 - 文本语料库，我们引入了两个新的时间感知型训练目标，以及一种粗粒度的视频片段表示方法，这使得 HawkEye 在时间视频定位方面表现更好，同时在其他视频 - 文本任务上与现有视频 - 文本 LLM 相当，验证了其卓越的视频 - 文本多模态理解能力。

Abstract

video-text large language models (video-text LLMs) have shown remarkable performance in answering questions and holding conversations on simple videos. However, they perform almost the same as random on grounding text queries in long and complicated videos, having little ability to und

video-text large language models hawkeye temporal video grounding internvid-g video-text multi-modal understanding abilities

发现论文，激发创造

LLM4VG：大型语言模型对视频定位的评估

近年来，研究人员试图调查 LLM 在处理视频方面的能力，并提出了几种视频 LLM 模型。然而，LLM 在处理视频对齐（VG）方面的能力仍然不清楚，也没有在文献中进行探索。为了填补这一空白，本文提出了 LLM4VG 基准测试，对不同的 LLM 在视频对齐任务上的性能进行系统评估。基于我们提出的 LLM4VG，我们设计了大量实验，检查了两组视频 LLM 模型在视频对齐上的表现：（i）基于文本 - 视频对训练的视频 LLM（标记为 VidLLM），以及（ii）与预训练的视觉描述模型（如视频 / 图像字幕模型）结合的 LLM。我们提出了整合 VG 指令和来自不同类型生成器的描述的方法，包括用于直接视觉描述的基于字幕的生成器和用于信息增强的基于 VQA 的生成器。我们还对各种 VidLLM 进行了全面比较，并探讨了不同视觉模型、LLM、提示设计等的影响。我们的实验评估得出了两个结论：（i）现有的 VidLLM 离实现令人满意的视频对齐性能还有很长的路要走，需要进一步微调这些模型以包含更多的与时间相关的视频任务；（ii）LLM 和视觉模型的组合显示出初步的视频对齐能力，通过采用更可靠的模型和进一步的提示指导，这种能力具有可观的改进潜力。

Dec, 2023

VTimeLLM: 赋能 LLM 捕捉视频片段

该研究提出了 VTimeLLM，一种新型的视频理解模型，通过采用三阶段的训练策略，在细粒度的视频时刻理解和时间边界推理方面取得显著性能优势，能够有效地在视频理解任务中超越现有的 Video LLMs 模型。

Nov, 2023

PG-Video-LLaVA：像素定位大型视频 - 语言模型

Video-LLaVA 是第一个具有像素级定位能力且通过将音频转写为文本来丰富视频上下文理解的大型多模态模型，在视频中能够根据用户指令对对象进行时空定位，并在生成和问答任务中取得优异结果。

Nov, 2023

VTG-LLM：将时间戳知识整合到视频 LLMs 中以增强视频时间定位

基于 VTG 任务，本研究首先介绍了 VTG-IT-120K 这一高质量的综合指导调整数据集，其涵盖了时刻检索、密集视频字幕生成、视频摘要和视频亮点检测等 VTG 任务；其次，我们提出了一个特别设计的用于 VTG 任务的视频 LLM 模型，VTG-LLM，该模型能够有效地将时间戳知识与视觉标记结合起来，并且引入了一种轻量级、高性能的基于槽位的标记压缩方法，以便更好地采样更多的视频帧。全面的实验证实了 VTG-LLM 在各种 VTG 任务中相较于其他视频 LLM 方法的卓越性能。

May, 2024

局部 - 全局视频文本交互的时间对齐

该论文提出了一种基于回归模型的方法，使用文本查询中的语义短语提取中间特征，以反映查询中描述的重要语义实体和视频的视觉特征之间的双模态交互，通过在多个层面上从局部到全局利用上下文信息，有效地预测目标时间区间。实验证明，该方法在 Charades-STA 和 ActivityNet Captions 数据集上的表现明显优于现有方法。

Apr, 2020

可以相信你的回答吗？基于视觉的视频问答

我们研究了视觉基础的视频问答，以回应利用预训练技术进行视频语言理解的新趋势。通过迫使视觉语言模型（VLMs）回答问题并同时提供视觉证据，我们试图确定这些技术的预测在多大程度上基于相关视频内容，而非语言或无关的视觉上下文的虚假相关性。通过构建具有 10.5K 时间定位（或位置）标签的 NExT-GQA，我们审查了各种先进的 VLMs。通过事后注意分析，我们发现这些模型在证实答案方面表现较弱，尽管它们在问答性能方面表现强劲。这暴露了这些模型在作出可靠预测方面的严重局限性。为了解决这个问题，我们进一步探索并建议通过高斯掩模优化和跨模态学习的视频定位机制。使用不同的骨干结构进行的实验证明，这种定位机制改善了视频定位和问答的效果。我们发布了我们的数据集和代码。通过这些努力，我们旨在推动在 VQA 系统中部署 VLMs 的可靠性。

Sep, 2023

Momentor：利用细粒度时间推理推进视频大型语言模型

提出了 Momentor，一种能够完成细粒度时态理解任务的 Video-LLM，并通过 Moment-10M 数据集的训练，使其在细粒度理解和定位方面表现出色。

Feb, 2024

Video-GroundingDINO: 面向开放词汇的时空视频定位

该研究论文介绍了一种开放式语义和语境视频定位模型，通过使用预训练的空间定位模型，克服了固定词汇和有限训练数据的限制，取得了在闭合式和开放式语境下的卓越性能。

Dec, 2023

VLM-Eval: 视频大型语言模型的通用评估

本文提出了一个统一的评估方法，包括字幕、问答、检索和行动识别等多个视频任务，展示了基于 GPT 的评估方法在多个方面可以与人类一样的表现，同时也展示了一种简单的基准方法 Video-LLaVA，在评估视频 LLMs 时优于现有方法。此外，我们还在实际驾驶场景中评估了视频 LLMs 的有效性，并展示了令人鼓舞的识别和推理能力。希望我们的工作能为视频 LLMs 提供一个统一的评估方法，并帮助扩展更多实际应用场景。

Nov, 2023

LLM-Optic：揭示大型语言模型在通用视觉锚定中的能力

通过使用大型语言模型作为视觉定位模型的辅助工具，LLM-Optic 方法克服了复杂文本查询的限制，实现了可以通过任意语言输入来检测任意对象的视觉定位能力，无需额外训练或微调。

May, 2024