VTG-LLM：将时间戳知识整合到视频 LLMs 中以增强视频时间定位

May, 2024

VTG-LLM：将时间戳知识整合到视频 LLMs 中以增强视频时间定位

VTG-LLM: Integrating Timestamp Knowledge into Video LLMs for Enhanced Video Temporal Grounding

Yongxin Guo, Jingyu Liu, Mingda Li, Xiaoying Tang, Xi Chen...

TL;DR基于 VTG 任务，本研究首先介绍了 VTG-IT-120K 这一高质量的综合指导调整数据集，其涵盖了时刻检索、密集视频字幕生成、视频摘要和视频亮点检测等 VTG 任务；其次，我们提出了一个特别设计的用于 VTG 任务的视频 LLM 模型，VTG-LLM，该模型能够有效地将时间戳知识与视觉标记结合起来，并且引入了一种轻量级、高性能的基于槽位的标记压缩方法，以便更好地采样更多的视频帧。全面的实验证实了 VTG-LLM 在各种 VTG 任务中相较于其他视频 LLM 方法的卓越性能。

Abstract

video temporal grounding (VTG) focuses on accurately identifying event timestamps within a particular video based on a linguistic query, playing a vital role in downstream tasks such as video browsing and editing

video temporal grounding video large language models timestamps instructional tuning datasets vtg-llm

发现论文，激发创造

LLM4VG：大型语言模型对视频定位的评估

近年来，研究人员试图调查 LLM 在处理视频方面的能力，并提出了几种视频 LLM 模型。然而，LLM 在处理视频对齐（VG）方面的能力仍然不清楚，也没有在文献中进行探索。为了填补这一空白，本文提出了 LLM4VG 基准测试，对不同的 LLM 在视频对齐任务上的性能进行系统评估。基于我们提出的 LLM4VG，我们设计了大量实验，检查了两组视频 LLM 模型在视频对齐上的表现：（i）基于文本 - 视频对训练的视频 LLM（标记为 VidLLM），以及（ii）与预训练的视觉描述模型（如视频 / 图像字幕模型）结合的 LLM。我们提出了整合 VG 指令和来自不同类型生成器的描述的方法，包括用于直接视觉描述的基于字幕的生成器和用于信息增强的基于 VQA 的生成器。我们还对各种 VidLLM 进行了全面比较，并探讨了不同视觉模型、LLM、提示设计等的影响。我们的实验评估得出了两个结论：（i）现有的 VidLLM 离实现令人满意的视频对齐性能还有很长的路要走，需要进一步微调这些模型以包含更多的与时间相关的视频任务；（ii）LLM 和视觉模型的组合显示出初步的视频对齐能力，通过采用更可靠的模型和进一步的提示指导，这种能力具有可观的改进潜力。

Dec, 2023

UniVTG：面向统一的视频 - 语言时序定位

通过统一视频时序定位（Video Temporal Grounding）的各种标签和任务，提出的 UniVTG 框架在大规模不同标签下能够解锁时序定位预训练，并获得更强的定位能力，例如零样本时序定位。对三项任务（时间区间提取、重要片段检测和视频摘要）在七个数据集上的广泛实验证明了该框架的有效性和灵活性。

Jul, 2023

VTimeLLM: 赋能 LLM 捕捉视频片段

该研究提出了 VTimeLLM，一种新型的视频理解模型，通过采用三阶段的训练策略，在细粒度的视频时刻理解和时间边界推理方面取得显著性能优势，能够有效地在视频理解任务中超越现有的 Video LLMs 模型。

Nov, 2023

视频中的时序句子地位划分：调查与未来方向

该论文调查了自然语言视频定位 (TSGV) 的基本概念和当前研究状况，并讨论了未来的研究方向，着重介绍了 TSGV 的多模态理解和交互技术，构建了 TSGV 技术的分类法，讨论了当前研究中存在的问题并分享了有前途的研究方向。

Jan, 2022

BiLL-VTG: 融合大型语言模型和轻量级视觉工具进行基于视频的文本生成

通过使用 BiLL-VTG 框架，结合大型语言模型 (LLMs)、结构化场景图生成和描述性图像标题生成两种视觉工具，通过对特定视频事件进行多次推理步骤，实现对用户指令的文本回复，并通过 InsOVER 算法使用语言指令定位相应的视频事件，从而使 LLMs 能够与长视频进行交互，实验表明该框架优于预训练模型 Flamingo-80B，达到了最先进的性能。

Oct, 2023

VTG-GPT: 使用 GPT 的免调整零样本视频时态定位

视频时间定位（VTG）目标是根据语言查询从未经修剪的视频中定位特定的时间段。我们提出了 VTG-GPT，这是一种基于 GPT 的零训练或微调的方法，以减少人为偏见和冗余信息，并实现与有监督方法相媲美的性能。

Mar, 2024

HawkEye: 训练以视频为基础的文本语言模型

我们提出了 HawkEye，这是第一个完全以文本形式进行时间视频定位的视频 - 文本 LLM，并构建了 InternVid-G，这是一个具有分段级字幕和负跨度的大规模视频 - 文本语料库，我们引入了两个新的时间感知型训练目标，以及一种粗粒度的视频片段表示方法，这使得 HawkEye 在时间视频定位方面表现更好，同时在其他视频 - 文本任务上与现有视频 - 文本 LLM 相当，验证了其卓越的视频 - 文本多模态理解能力。

Mar, 2024

PG-Video-LLaVA：像素定位大型视频 - 语言模型

Video-LLaVA 是第一个具有像素级定位能力且通过将音频转写为文本来丰富视频上下文理解的大型多模态模型，在视频中能够根据用户指令对对象进行时空定位，并在生成和问答任务中取得优异结果。

Nov, 2023

面向时序视频定位的预训练语言模型参数高效集成

探讨了在 Temporal Video Grounding (TVG) 任务中利用预训练语言模型 (PLM) 的效果，结合现有方法使用不同适配器降低额外参数的影响，结果表明适配器能够在保证性能的情况下，大大减少计算成本，并在三个挑战性的数据集上发现，通过对 PLMs 进行微调，TVG 模型可以极大地受益于 PLM。

Sep, 2022

LongVLM：通过大型语言模型实现高效长视频理解

使用长视频理解任务中的 Large Language Models（LLMs）面临的挑战，本文提出了一种名为 LongVLM 的 VideoLLM 模型，通过分解长视频为短期片段，并使用分层令牌合并模块编码局部特征，维护顺序，整合全局语义信息，实现对长期视频的全面理解。实验证明了该模型在视频理解任务中的优越性能。

Apr, 2024