May, 2024

VTG-LLM:将时间戳知识整合到视频 LLMs 中以增强视频时间定位

TL;DR基于 VTG 任务,本研究首先介绍了 VTG-IT-120K 这一高质量的综合指导调整数据集,其涵盖了时刻检索、密集视频字幕生成、视频摘要和视频亮点检测等 VTG 任务;其次,我们提出了一个特别设计的用于 VTG 任务的视频 LLM 模型,VTG-LLM,该模型能够有效地将时间戳知识与视觉标记结合起来,并且引入了一种轻量级、高性能的基于槽位的标记压缩方法,以便更好地采样更多的视频帧。全面的实验证实了 VTG-LLM 在各种 VTG 任务中相较于其他视频 LLM 方法的卓越性能。