通过时间门控增强视频大语言模型的时间建模
该研究提出了VTimeLLM,一种新型的视频理解模型,通过采用三阶段的训练策略,在细粒度的视频时刻理解和时间边界推理方面取得显著性能优势,能够有效地在视频理解任务中超越现有的Video LLMs模型。
Nov, 2023
该研究提出了TimeChat,一种针对长视频理解的时态敏感多模态大型语言模型。该模型通过两个关键的架构贡献实现:1) 能够将每帧的视觉内容与时间戳绑定的时间感知帧编码器,和 2) 一种产生适应不同持续时间视频的长度可变视频令牌序列的滑动视频Q-Former。此外,我们构建了一个调整指令的数据集,包括6个任务和总共12.5万个实例,以进一步提高TimeChat的指令遵循性能。在各种视频理解任务上的实验结果,如密集字幕生成、时间定位和重点检测,展示了TimeChat强大的零样本时态定位和推理能力。例如,在YouCook2上,它在F1评分上提升了9.2,在CIDEr上提升了2.8,在QVHighlights上的HIT@1提升了5.8,在Charades-STA上的R@1 (IoU=0.5)提升了27.5,与业界领先的视频大型语言模型相比,具备作为长视频理解任务的通用视频助手并满足真实用户需求的潜力。
Dec, 2023
近年来,研究人员试图调查LLM在处理视频方面的能力,并提出了几种视频LLM模型。然而,LLM在处理视频对齐(VG)方面的能力仍然不清楚,也没有在文献中进行探索。为了填补这一空白,本文提出了LLM4VG基准测试,对不同的LLM在视频对齐任务上的性能进行系统评估。基于我们提出的LLM4VG,我们设计了大量实验,检查了两组视频LLM模型在视频对齐上的表现:(i)基于文本-视频对训练的视频LLM(标记为VidLLM),以及(ii)与预训练的视觉描述模型(如视频/图像字幕模型)结合的LLM。我们提出了整合VG指令和来自不同类型生成器的描述的方法,包括用于直接视觉描述的基于字幕的生成器和用于信息增强的基于VQA的生成器。我们还对各种VidLLM进行了全面比较,并探讨了不同视觉模型、LLM、提示设计等的影响。我们的实验评估得出了两个结论:(i)现有的VidLLM离实现令人满意的视频对齐性能还有很长的路要走,需要进一步微调这些模型以包含更多的与时间相关的视频任务;(ii)LLM和视觉模型的组合显示出初步的视频对齐能力,通过采用更可靠的模型和进一步的提示指导,这种能力具有可观的改进潜力。
Dec, 2023
通过综述表明,利用大型语言模型(LLMs)的能力,视频理解工具的发展具有巨大的潜力,并且在空间时间推理和通识知识方面表现出令人惊讶的优势,还展示了在各个领域中应用的强大可扩展性和多功能性。
Dec, 2023
通过使用交互式视觉适配器 (IVA) 在大型语言模型(LLMs)内部增强与细粒度视觉元素的互动,我们提出的视频-LLM通过适当的长视频建模和精确的视觉交互,实现了对长视频内容的全面理解,并显著提高了长视频问答任务的性能。
Feb, 2024
介绍了TempCompass基准测试,该基准测试引入了多样化的时间感知和任务格式,全面评估了8种最新的视频大语言模型以及3种图像大语言模型,并揭示了这些模型在时间感知方面表现出明显的不足。
Mar, 2024
通过在Large Language Models(LLMs)中添加Spatial-Temporal序列建模,提高视频理解能力,并通过动态掩蔽策略和全局-局部输入模块提升效率和稳定性,从而在VideoChatGPT-Bench和MVBench上建立了新的最优结果。
Mar, 2024
基于VTG任务,本研究首先介绍了VTG-IT-120K这一高质量的综合指导调整数据集,其涵盖了时刻检索、密集视频字幕生成、视频摘要和视频亮点检测等VTG任务;其次,我们提出了一个特别设计的用于VTG任务的视频LLM模型,VTG-LLM,该模型能够有效地将时间戳知识与视觉标记结合起来,并且引入了一种轻量级、高性能的基于槽位的标记压缩方法,以便更好地采样更多的视频帧。全面的实验证实了VTG-LLM在各种VTG任务中相较于其他视频LLM方法的卓越性能。
May, 2024
本研究关注视频问答(VideoQA)在视频大语言模型(Video-LLMs)发展中的关键作用,探讨其成功与失败模式。研究发现,虽然Video-LLMs在回答视频内容问题上表现出色,但在处理视频的时间性和鲁棒性方面存在显著不足,强调了在开发中需要加强对其行为的解释能力。
Aug, 2024
本研究解决了视频大语言模型在时间关系推理中存在的困难,发现问题源于底层语言模型对时间概念的理解不足。通过引入文本时间推理迁移(T3),利用现有图像-文本数据集生成多样的时间推理任务,显著提高了模型在时间推理任务上的表现,展示了文本与视频领域间时间推理能力的有效迁移。
Oct, 2024