VELOCITI：视频语言模型能否通过时间连接语义概念？

Jun, 2024

VELOCITI：视频语言模型能否通过时间连接语义概念？

VELOCITI: Can Video-Language Models Bind Semantic Concepts through Time?

Darshana Saravanan, Darshan Singh, Varun Gupta, Zeeshan Khan, Vineet Gandhi...

TL;DRVELOCITI 是一个基于复杂电影剪辑和密集的语义角色标签注释的新基准，用于测试视频语言模型的感知和绑定能力，结果显示当前最先进的模型在感知测试上表现得相当好，但在绑定测试上的准确性接近随机，表明它们在绑定测试中失败。

Abstract

compositionality is a fundamental aspect of vision-language understanding and is especially required for videos since they contain multipl

compositionality vision-language understanding videos entities binding

发现论文，激发创造

探索视觉检索模型中的组合和语义理解

对视频检索模型在对象和属性、动作以及语义等组成部分的理解进行系统研究并在标准基准数据集上进行实验，发现对象和属性组成部分在视频理解上发挥更重要的作用，且使用预训练的图像 - 文本表示（如 CLIP）的视频检索模型具有更好的语义和组成理解能力。

Jun, 2023

VITATECS：用于视频语言模型的时间概念理解诊断数据集

通过引入细粒度的自然语言中的时间概念的分类，利用反事实视频描述来解开静态和时间信息之间的相关性，并评估典型的视频语言理解模型，揭示了对于视频语言研究中时间元素的更大重视的需求。

Nov, 2023

探索视觉语言组合性和识别的光谱

研究了视觉和语言模型领域的复杂关系，特别是在语言理解和细粒度图像与文本对齐方面，探索并评估了现有的 VLMs，在组合性和识别准确性之间的模式和权衡，提出了改进两者能力和基准的策略性努力的必要性。

Jun, 2024

TC-Bench：文本到视频和图片到视频生成中的时间复合性基准测试

视频生成模型的时间组合性评估需要考虑新概念的出现和它们之间的转换，提出了一个基准测试集 TC-Bench，用于评估生成视频的过渡完成度和组件转换的完整性，结果表明现有的视频生成模型在解释组合性转换描述和综合不同时间步骤中的各种组件方面存在着巨大的改进空间。

Jun, 2024

CLIP 是否绑定概念？探索大型图像模型的组合能力

本文探讨了 CLIP 在合成知识下图像描述的能力，提出了五种计算模型并设计出新的训练算法 CoSI，在属性 - 对象标记任务和空间关系任务中测试了 CLIP 的表现，结果表明虽然 CLIP 在属性 - 对象标记任务中表现良好且能够推广至新的未知属性 - 对象组合，但其无法可靠地绑定特性，对于对象之间的关系无法可靠地学习。

Dec, 2022

TempCompass：视频 LLMs 是否真正理解视频？

介绍了 TempCompass 基准测试，该基准测试引入了多样化的时间感知和任务格式，全面评估了 8 种最新的视频大语言模型以及 3 种图像大语言模型，并揭示了这些模型在时间感知方面表现出明显的不足。

Mar, 2024

关于视音频检索中的语义相似度

本文提出了一种基于语义相似性的视频检索方法，它允许多个视频和标题被视为同等相关，并且排名的顺序不影响检索性能比较，同时，它还提出了多种估计语义相似性的方法，以适应大规模检索数据集。本文在三个常用视频检索数据集上分析了该方法的表现。

Mar, 2021

语义组合提升视觉 - 语言对比学习

通过引入语义组合样本，我们通过一个简单的技术（称为 CLIP-C），显著改善了零样本图像分类和跨模态检索的能力，而不需要额外的计算开销或模型参数增加。

Jul, 2024

探究大型视觉语言模型的概念理解

本文介绍了一种新的框架，用于探究和提升视觉语言模型的关系、组合和上下文理解。我们提出了一个基准数据集来检测内容理解的三个方面。我们实验了 5 种流行的模型，并发现它们大多数难以展示出概念理解。然而，我们发现交叉注意力可以帮助学习概念理解，并提出了一种新的微调技术，以奖励我们提出的三个概念理解措施。我们希望这些基准测试可以帮助社区评估和改进大型视觉语言模型的概念理解能力。

Apr, 2023

利用预训练的视觉 - 语言模型进行视频识别的双向跨模态知识探索

本文介绍了一个名叫 BIKE 的，通过使用视频和文本之间的跨模态桥梁，通过视频设置自动补充的文字辅助属性，和通过文本确定带有时间明显性的位置，以增强视频表示，从而有效提高各种识别情景下的视频识别性能的创新框架。在六个流行的视频数据集中进行的广泛研究表明，我们的方法在各种识别方案中均实现了最先进的性能。

Dec, 2022