Mar, 2024

HawkEye: 训练以视频为基础的文本语言模型

TL;DR我们提出了 HawkEye,这是第一个完全以文本形式进行时间视频定位的视频 - 文本 LLM,并构建了 InternVid-G,这是一个具有分段级字幕和负跨度的大规模视频 - 文本语料库,我们引入了两个新的时间感知型训练目标,以及一种粗粒度的视频片段表示方法,这使得 HawkEye 在时间视频定位方面表现更好,同时在其他视频 - 文本任务上与现有视频 - 文本 LLM 相当,验证了其卓越的视频 - 文本多模态理解能力。