Nov, 2023

VTimeLLM: 赋能LLM捕捉视频片段

TL;DR该研究提出了VTimeLLM,一种新型的视频理解模型,通过采用三阶段的训练策略,在细粒度的视频时刻理解和时间边界推理方面取得显著性能优势,能够有效地在视频理解任务中超越现有的Video LLMs模型。