BriefGPT.xyz
大模型
Ask
alpha
关键词
vision language models (vlms)
搜索结果 - 3
图像中的视觉针在感知和描述的背景中很容易迷失
LoCoVQA 是一个用于评估视觉语言模型(VLM)中的长篇上下文抽取推理的动态基准生成器。该测试评估了 VLM 在回答问题时如何忽略无关信息的能力,表明目前的最先进 VLM 在许多长篇上下文应用中缺乏这种关键能力。
PDF
8 days ago
10 年来视频异常检测:综述与展望
通过深度学习方法的视频异常检测(VAD)调查,本篇综述探索了传统监督训练范式之外的新兴弱监督、自监督和无监督方法,研究了 VAD 范式中的核心挑战,以及视觉语言模型(VLMs)作为强大的特征提取器在 VAD 中的作用,旨在增强复杂现实场景中
→
PDF
a month ago
视觉语言模型是否偏向纹理或形状,并且我们能否引导它们?
通过对多模态模型的研究,发现视觉语言模型(VLMs)比纯视觉模型更倾向于形状(shape)偏好,并且通过语言提示可以通过 VLMs 来引导形状偏好的变化。
PDF
4 months ago
Prev
Next