ViLMA：视频 - 语言模型中的语言与时间基准的零样本评测

Nov, 2023

ViLMA：视频 - 语言模型中的语言与时间基准的零样本评测

ViLMA: A Zero-Shot Benchmark for Linguistic and Temporal Grounding in Video-Language Models

Ilker Kesen, Andrea Pedrotti, Mustafa Dogan, Michele Cafagna, Emre Can Acikgoz...

TL;DR通过提出 ViLMA（视频语言模型评估）作为一个任务无关的基准，我们针对预训练的视频语言模型的微观能力开展了一个鲁棒的评估方法，该基准通过精心策划的反事实情况提供了一个控制的评估套件，揭示了这些模型的真实潜力以及与人类理解水平相比的性能差距。

Abstract

With the ever-increasing popularity of pretrained video-language models (VidLMs), there is a pressing need to develop robust evaluation methodologies that delve deeper into their →

pretrained video-language models evaluation methodologies visio-linguistic capabilities vilma benchmark

发现论文，激发创造

VLM-Eval: 视频大型语言模型的通用评估

本文提出了一个统一的评估方法，包括字幕、问答、检索和行动识别等多个视频任务，展示了基于 GPT 的评估方法在多个方面可以与人类一样的表现，同时也展示了一种简单的基准方法 Video-LLaVA，在评估视频 LLMs 时优于现有方法。此外，我们还在实际驾驶场景中评估了视频 LLMs 的有效性，并展示了令人鼓舞的识别和推理能力。希望我们的工作能为视频 LLMs 提供一个统一的评估方法，并帮助扩展更多实际应用场景。

Nov, 2023

LLM4VG：大型语言模型对视频定位的评估

近年来，研究人员试图调查 LLM 在处理视频方面的能力，并提出了几种视频 LLM 模型。然而，LLM 在处理视频对齐（VG）方面的能力仍然不清楚，也没有在文献中进行探索。为了填补这一空白，本文提出了 LLM4VG 基准测试，对不同的 LLM 在视频对齐任务上的性能进行系统评估。基于我们提出的 LLM4VG，我们设计了大量实验，检查了两组视频 LLM 模型在视频对齐上的表现：（i）基于文本 - 视频对训练的视频 LLM（标记为 VidLLM），以及（ii）与预训练的视觉描述模型（如视频 / 图像字幕模型）结合的 LLM。我们提出了整合 VG 指令和来自不同类型生成器的描述的方法，包括用于直接视觉描述的基于字幕的生成器和用于信息增强的基于 VQA 的生成器。我们还对各种 VidLLM 进行了全面比较，并探讨了不同视觉模型、LLM、提示设计等的影响。我们的实验评估得出了两个结论：（i）现有的 VidLLM 离实现令人满意的视频对齐性能还有很长的路要走，需要进一步微调这些模型以包含更多的与时间相关的视频任务；（ii）LLM 和视觉模型的组合显示出初步的视频对齐能力，通过采用更可靠的模型和进一步的提示指导，这种能力具有可观的改进潜力。

Dec, 2023

Video-Bench：用于评估基于视频的大型语言模型的综合基准和工具包

视频型大型语言模型（Video-LLM）的评估系统是本文提出的主题，通过建立全面的基准测试系统，评估多种任务下的 Video-LLM 能力水平，揭示当前模型在理解和分析真实世界视频方面与人类的差距，提供有价值的研究方向。

Nov, 2023

ViLaM: 具有增强的视觉定位和泛化能力的视觉语言模型

该研究提出了 ViLaM，一个统一的视觉 - 语言转换模型，通过集成基于大型语言模型的指令调整，能够在包括语言和视觉的一系列任务中最佳利用大型预训练语言模型的知识和推理能力，从而在医学图像分析等复杂视觉任务中取得了非凡的表现，并展示了其令人印象深刻的零样本学习能力，表明 ViLaM 在医学领域具有潜在的未来应用。

Nov, 2023

LOVM: 语言优先视觉模型选择

本研究提出了一种热门研究课题，即如何对多模态视觉 - 语言模型进行选择和预测，并利用新的基准测试 LOVM 来进行考核评估。

Jun, 2023

Q-GroundCAM: 通过 GradCAM 度量视觉语言模型中的基准化能力

Vision and Language Models (VLMs) have remarkable zero-shot performance, but struggle with compositional scene understanding and linguistic phrase grounding. This paper introduces novel quantitative metrics using GradCAM activations to evaluate pre-trained VLMs' grounding capabilities and measure their uncertainty, revealing tradeoffs between model size, dataset size, and performance.

Apr, 2024

视觉语言模型的零样本识别挑战：粒度和正确性

本文研究视觉与语言模型在零样本视觉识别任务中的应用难点，并针对对比视觉 - 语言模型（CLIP）等模型进行探讨。研究表明，模型更擅长识别细粒度概念，并且相似度评分并不能严格反映相应文本描述的准确性。作者提出了评价方法，以评估其学习性偏差问题，并发现相似的模糊描述很容易被模型混淆识别。本研究凸显了在开放环境下使用视觉与语言模型的挑战，并为进一步提高其零样本能力提出了方向建议。

Jun, 2023

视频 LLaVA：前投影前学习统一视觉表示

该研究论文提出了一种统一的大规模视觉语言模型（LVLM），通过在语言特征空间中统一视觉表示，学习多模态交互，从而在图像和视频基准任务上取得了卓越性能。

Nov, 2023

视觉增强语言建模

提出了一种名为 VaLM 的预训练框架，对语言建模进行视觉增强，通过图像检索模块检索相应图像，使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识，并在需要的情况下获取相关联的图片，通过对各种视觉知识密集型的常识推理任务的评估，展示了 VaLM 在推理对象的常识，包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。

May, 2022

视觉 - 语言模型的不确定性感知评估

提出了一种利用置信度量化的方式评估视觉 - 语言模型，研究发现模型的不确定性与准确性存在相关性。

Feb, 2024