TemporalBench:多模态视频模型的细粒度时间理解基准
该论文提出了一种新的视频-语言模型:去耦合的空间-时间编码器,通过将图像编码器中的空间模型独立于时间进行编码,将视频编码器中的时间模型放在较低的空间但更高的时间分辨率上进行编码并提出了一个新的预训练目标来帮助视频-语言模型学习视频QA中的时间关系以达到更好的视觉理解。
Oct, 2022
通过动作时间建模(ATM),在视频问答(VideoQA)中引入了对因果/时间推理跨帧的问题,并通过重新思考光流的有效性、以行为为中心的对比学习和防止模型在微调阶段给出对洗牌视频的回答来实现了时序推理。实验证明,ATM在多个VideoQA任务的准确性方面优于先前方法,并展示了更好的真实时间推理能力。
Sep, 2023
通过引入全面的多模式视频理解基准(MVBench),该研究提出了一种新的静态到动态方法,将静态任务转化为动态任务,评估多模式大型语言模型(MLLMs)的时间理解能力,并且开发了一种强大的视频MLLM基准模型VideoChat2,检验结果显示VideoChat2在MVBench上的性能超过其他领先模型15%以上。
Nov, 2023
该研究提出了TimeChat,一种针对长视频理解的时态敏感多模态大型语言模型。该模型通过两个关键的架构贡献实现:1) 能够将每帧的视觉内容与时间戳绑定的时间感知帧编码器,和 2) 一种产生适应不同持续时间视频的长度可变视频令牌序列的滑动视频Q-Former。此外,我们构建了一个调整指令的数据集,包括6个任务和总共12.5万个实例,以进一步提高TimeChat的指令遵循性能。在各种视频理解任务上的实验结果,如密集字幕生成、时间定位和重点检测,展示了TimeChat强大的零样本时态定位和推理能力。例如,在YouCook2上,它在F1评分上提升了9.2,在CIDEr上提升了2.8,在QVHighlights上的HIT@1提升了5.8,在Charades-STA上的R@1 (IoU=0.5)提升了27.5,与业界领先的视频大型语言模型相比,具备作为长视频理解任务的通用视频助手并满足真实用户需求的潜力。
Dec, 2023
通过引入MMBench-Video来评估大规模视觉语言模型在视频理解方面的表现,该评估基准充分考虑视频内容,并充分评估模型的时间理解能力,从而为改进大规模视觉语言模型的评估提供了有价值的资源,促进了视频理解领域的进展。
Jun, 2024
理解长视频的困难和挑战,现有的基准测试主要关注较短的视频片段。为了弥补这一差距,我们引入了InfiniBench,这是一个全面的、针对非常长视频理解的基准测试,它具有最长的视频持续时间、最大数量的问答对以及多样化的问题类型。通过对现有的大型多模态模型进行评估,我们发现这个基准测试存在着重大挑战。希望这个基准测试能够促进多模态模型社区对长视频和人类级别理解的研究。
Jun, 2024
本研究解决了现有视频理解基准缺乏细粒度事件级评估和任务多样性的问题。我们提出了E.T.基准,这是一个大规模的高质量开放式事件级视频理解基准,包含12项任务下的7.3K样本和7K视频,提供全面评估。评估结果表明,现有的先进模型在解决细粒度任务时表现不佳,同时提出的E.T. Chat模型和指令调优数据集在多个场景中显示出优越的性能。
Sep, 2024
本研究解决了视频大语言模型在时间关系推理中存在的困难,发现问题源于底层语言模型对时间概念的理解不足。通过引入文本时间推理迁移(T3),利用现有图像-文本数据集生成多样的时间推理任务,显著提高了模型在时间推理任务上的表现,展示了文本与视频领域间时间推理能力的有效迁移。
Oct, 2024
本研究针对现有视频-语言基准存在的关键问题,如缺乏时间推理能力和过度依赖文本信息,提出了TVBench这一开放源代码的视频多项选择问答基准。我们的研究表明,TVBench要求模型具备较高的时间理解能力,而大部分最新的视频-语言模型在此基准上的表现接近随机水平,只有Gemini-Pro和Tarsier显著优于这一基线。
Oct, 2024