VITATECS:用于视频语言模型的时间概念理解诊断数据集
通过对比学习,LAVITI 引入了一种新方法来学习长视频中的语言、视觉和时间表示,目标是通过提取未修剪视频中的有意义的时刻来对齐语言、视频和时间特征,并使用可学习的时刻查询来解码视频和时间特征。此外,引入了相对时间嵌入(TE)来表示视频中的时间戳,从而实现时间的对比学习。该方法在计算复杂度和内存占用方面显著不同于传统方法,可以仅使用 8 个 NVIDIA RTX-3090 GPU 在一天内在 Ego4D 数据集上进行训练。在 CharadesEgo 动作识别任务上,我们通过验证该方法实现了最先进的结果。
Jun, 2024
介绍了 TempCompass 基准测试,该基准测试引入了多样化的时间感知和任务格式,全面评估了 8 种最新的视频大语言模型以及 3 种图像大语言模型,并揭示了这些模型在时间感知方面表现出明显的不足。
Mar, 2024
通过提出 atemporal probe 模型,本文探讨了视频和语言任务中现有的模型的局限性和潜力,并发现即使在面向较深层次视频理解的基准测试中,理解事件时间通常也不是实现强大或最新技术的性能所必需的。
Jun, 2022
通过提出 ViLMA(视频语言模型评估)作为一个任务无关的基准,我们针对预训练的视频语言模型的微观能力开展了一个鲁棒的评估方法,该基准通过精心策划的反事实情况提供了一个控制的评估套件,揭示了这些模型的真实潜力以及与人类理解水平相比的性能差距。
Nov, 2023
VELOCITI 是一个基于复杂电影剪辑和密集的语义角色标签注释的新基准,用于测试视频语言模型的感知和绑定能力,结果显示当前最先进的模型在感知测试上表现得相当好,但在绑定测试上的准确性接近随机,表明它们在绑定测试中失败。
Jun, 2024
本文旨在向已有视频语言模型注入时间感,通过后预训练等方式实现,观察经过处理后的模型在时间感知任务中的性能提升情况,并在六个数据集上进行了零样本评估。
Jan, 2023
通过提供综合评估多模态大型模型在视频理解和推理中的性能的全方位评估基准 VideoVista,本文揭示了视频 LMM 面临的困难、推理能力的不足以及开源视频 LMM 的性能低于 GPT-4o 和 Gemini-1.5 的问题,强调了 VideoVista 在推进精确理解视频和执行精准推理的 LMM 中的关键作用。
Jun, 2024
提出了 Language Instructed Temporal-Localization Assistant (LITA) 方法,通过引入时间标记、SlowFast 标记和强调时序本地化数据,改进了多模态大型语言模型的时序本地化能力,并在 Reasoning Temporal Localization (RTL) 任务和 ActivityNet-RTL 数据集中取得了显著的性能提升。
Mar, 2024
通过调查 105 个需要事件理解能力的视频数据集,我们考虑它们对视频中鲁棒事件理解研究的贡献,并评估在这一研究领域中提出的视频事件提取任务,提出了基于调查结果的数据集策划和任务构建建议,特别强调视频事件的时间特性和视觉内容的歧义性。
Jun, 2024
本文通过构建名称为 CATER 的视频数据集,从而提供了深入理解深度视频架构的诊断工具。在该数据集中,场景和对象的结构充满着隐含的偏见,这可以掩盖时间结构的变化,因此需要时空理解才能真正解决。
Oct, 2019