从文本到视频的时间推理迁移
该论文提出了一种新的视频-语言模型:去耦合的空间-时间编码器,通过将图像编码器中的空间模型独立于时间进行编码,将视频编码器中的时间模型放在较低的空间但更高的时间分辨率上进行编码并提出了一个新的预训练目标来帮助视频-语言模型学习视频QA中的时间关系以达到更好的视觉理解。
Oct, 2022
通过引入Tem-Adapter,结合视觉时间对齐器和文本语义对齐器,利用图像预训练的知识来弥合图像和视频领域之间的差距,以实现学习时间动力学和复杂语义的目的,并通过两个VideoQA基准测试验证了该方法的有效性。
Aug, 2023
该研究提出了VTimeLLM,一种新型的视频理解模型,通过采用三阶段的训练策略,在细粒度的视频时刻理解和时间边界推理方面取得显著性能优势,能够有效地在视频理解任务中超越现有的Video LLMs模型。
Nov, 2023
该研究提出了TimeChat,一种针对长视频理解的时态敏感多模态大型语言模型。该模型通过两个关键的架构贡献实现:1) 能够将每帧的视觉内容与时间戳绑定的时间感知帧编码器,和 2) 一种产生适应不同持续时间视频的长度可变视频令牌序列的滑动视频Q-Former。此外,我们构建了一个调整指令的数据集,包括6个任务和总共12.5万个实例,以进一步提高TimeChat的指令遵循性能。在各种视频理解任务上的实验结果,如密集字幕生成、时间定位和重点检测,展示了TimeChat强大的零样本时态定位和推理能力。例如,在YouCook2上,它在F1评分上提升了9.2,在CIDEr上提升了2.8,在QVHighlights上的HIT@1提升了5.8,在Charades-STA上的R@1 (IoU=0.5)提升了27.5,与业界领先的视频大型语言模型相比,具备作为长视频理解任务的通用视频助手并满足真实用户需求的潜力。
Dec, 2023
提出了Momentor,一种能够完成细粒度时态理解任务的Video-LLM,并通过Moment-10M数据集的训练,使其在细粒度理解和定位方面表现出色。
Feb, 2024
本研究关注视频问答(VideoQA)在视频大语言模型(Video-LLMs)发展中的关键作用,探讨其成功与失败模式。研究发现,虽然Video-LLMs在回答视频内容问题上表现出色,但在处理视频的时间性和鲁棒性方面存在显著不足,强调了在开发中需要加强对其行为的解释能力。
Aug, 2024
本研究解决了使用大型语言模型(LLMs)在长视频理解中面临的信息冗余问题。提出的VideoINSTA框架结合事件驱动和内容驱动的时空推理,显著提升了三项长视频问答基准测试的表现,展示了其在零样本长视频分析中的有效性与影响力。
Sep, 2024
本研究针对视频大型语言模型(Video-LLMs)在细粒度时序定位方面的不足,提出了Grounded-VideoLLM这一新模型。通过引入额外的时序编码流和特定时间知识的离散时序token,该模型在多阶段训练中有效提升了细粒度视频理解的能力,展现出在时序句子定位、密集视频描述和视频问答等任务中的卓越表现,具有广泛的视频理解应用潜力。
Oct, 2024
本研究解决了现有视频大语言模型在视频数据中忽视时间信息的问题,提出了一个新颖的时间门控模块(TG),以增强时间建模能力。实验结果表明,所提出的TG-Vid模型在多个时间敏感的视频基准测试中显著优于现有模型,证明了TG模块设计的重要性。
Oct, 2024
本研究针对现有视频基准在细粒度时间理解评估方面的不足,提出了TemporalBench这一新基准。通过约10,000对视频问答对,TemporalBench提供了独特的评估平台,揭示了当前先进模型在时间理解方面与人类之间存在显著差距(约30%)。该基准有助于推动模型在时间推理能力上的改进。
Oct, 2024