擅长标题,计数能力差:在地球观测数据上评估 GPT-4V
大规模语言模型的出现显著推动了人工智能的快速发展,并引发了人工智能 2.0 的革命。远程感知领域对于开发专门针对数据分析的大规模视觉语言模型越来越感兴趣。然而,目前的研究主要集中在视觉识别任务上,缺乏对齐并适用于训练大规模视觉语言模型的全面、大规模图像 - 文本数据集,这对于有效训练此类模型构成了重大挑战。本研究构建了一个高质量的远程感知图像字幕数据集(RSICap),用于促进 RS 领域大规模视觉语言模型的发展。与以往通过模型生成的字幕或简短描述的数据集不同,RSICap 包括 2,585 个人工注释的字幕,具备丰富和高质量的信息。该数据集为每个图像提供了详细的描述,包括场景描述(例如居住区、机场或农田)以及对象信息(例如颜色、形状、数量、绝对位置等)。为了促进在 RS 领域中对视觉语言模型的评估,我们还提供了一个基准评估数据集 RSIEval,它包括人工注释的字幕和视觉问答对,可以全面评估在 RS 背景下的视觉语言模型。
Jul, 2023
基于本文的研究发现,将分类聚焦的数据集整合到可视语言模型的训练中可以提高其分类性能,并将性能提升转移到其一般能力上,对于新收集的 ImageWikiQA 数据集,准确率提高了 11.8%。
May, 2024
图像标注长期以来一直被视为视觉理解的基本任务。最近,由于过时的短字幕基准和不可靠的评估指标,很少有大规模视觉 - 语言模型(LVLM)研究讨论模型的图像标注性能。本文提出了通过由人类专家注释的高质量评估数据集 GPT-4V 和 Gemini-1.5-Pro 来评估详细图像标注任务的基准。我们还设计了一种更可靠的字幕评估指标,称为 CAPTURE(通过提取和耦合核心信息进行字幕评估)。CAPTURE 从字幕中提取视觉元素(例如对象、属性和关系),然后通过三个阶段匹配这些元素,以实现与专家判断最高的一致性,超过其他基于规则或基于模型的字幕评估指标。所提出的基准和指标为 LVLM 的详细图像标注能力提供了可靠的评估。在此评估的指导下,我们通过一个五阶段的数据构建流程进一步探索释放 LVLM 的详细字幕能力。我们的流程只使用给定的 LVLM 本身和其他开源工具,没有任何人工或 GPT-4V 的注释。实验证明,所提出的数据构建策略显著提高了具有领先性能的 LVLM 生成的详细字幕数据的质量,并且在自我循环的范式中可以进一步提高数据质量。代码和数据集将在此 https URL 公开提供。
May, 2024
通过对多模态机制的详细分析,揭示了 GPT-4V 等模型执行视觉和语言任务的一致性与独立性,并引入了一种名为 “Vision Description Prompting” 的方法,有效提高了具有挑战性的视觉相关任务的性能。
Oct, 2023
GPT-4V 在多模态任务的普遍评估方面展现出了巨大的潜力,尽管存在一些限制,但其与人类的一致性以及提供详细解释的能力为通用自动评估器提供了希望。
Nov, 2023
本研究使用自动管道方法研究了视觉 - 语言模型在获取 “可见” 物理知识方面的能力,并发现这些模型在物体颜色,大小和空间三个方面的表现与人类存在明显差距。而采用预训练的基线模型 (CapBERT) 可以取得更好的表现。
Sep, 2022
探索 GPT-4V 在视觉理解方面的能力和限制,着重关注文化方面,通过使用 MaRVL 基准数据集进行详细调查,实验证明 GPT-4V 在识别文化概念方面表现出色,但在低资源语言上仍然存在较弱的性能。
Feb, 2024
Vision Language Models are tested on the IllusionVQA dataset, revealing their performance and weaknesses in comprehension and soft localization tasks, particularly in the context of optical illusions and In-Context Learning.
Mar, 2024
通过分析最新的模型 GPT-4V,我们深入了解大型多模态模型(LMMs)的能力和特点,发现 GPT-4V 具有处理多种输入、具有广泛通用性的能力,以及通过理解图像上的视觉标记可以创造出新的人机交互方式。我们期望这项初步探索能够激发对下一代多模态任务形式、利用和增强 LMMs 以解决实际问题以及对多模态基础模型有更好理解的未来研究方向的启发。
Sep, 2023