Oct, 2024

基于时序定位的细粒度视频理解大型语言模型

TL;DR本研究针对视频大型语言模型(Video-LLMs)在细粒度时序定位方面的不足,提出了Grounded-VideoLLM这一新模型。通过引入额外的时序编码流和特定时间知识的离散时序token,该模型在多阶段训练中有效提升了细粒度视频理解的能力,展现出在时序句子定位、密集视频描述和视频问答等任务中的卓越表现,具有广泛的视频理解应用潜力。