细节图像描述的基准测试与改进

May, 2024

Benchmarking and Improving Detail Image Caption

Hongyuan Dong, Jiawen Li, Bohong Wu, Jiacong Wang, Yuan Zhang...

TL;DR图像标注长期以来一直被视为视觉理解的基本任务。最近，由于过时的短字幕基准和不可靠的评估指标，很少有大规模视觉 - 语言模型（LVLM）研究讨论模型的图像标注性能。本文提出了通过由人类专家注释的高质量评估数据集 GPT-4V 和 Gemini-1.5-Pro 来评估详细图像标注任务的基准。我们还设计了一种更可靠的字幕评估指标，称为 CAPTURE（通过提取和耦合核心信息进行字幕评估）。CAPTURE 从字幕中提取视觉元素（例如对象、属性和关系），然后通过三个阶段匹配这些元素，以实现与专家判断最高的一致性，超过其他基于规则或基于模型的字幕评估指标。所提出的基准和指标为 LVLM 的详细图像标注能力提供了可靠的评估。在此评估的指导下，我们通过一个五阶段的数据构建流程进一步探索释放 LVLM 的详细字幕能力。我们的流程只使用给定的 LVLM 本身和其他开源工具，没有任何人工或 GPT-4V 的注释。实验证明，所提出的数据构建策略显著提高了具有领先性能的 LVLM 生成的详细字幕数据的质量，并且在自我循环的范式中可以进一步提高数据质量。代码和数据集将在此 https URL 公开提供。

Abstract

image captioning has long been regarded as a fundamental task in visual understanding. Recently, however, few large vision-language model (LVLM) research discusses model's →

image captioning vision-language model evaluation metrics data construction pipeline detail caption capabilities

发现论文，激发创造

基于视觉语言模型的字幕评估方法及其视觉上下文提取

通过提取和组织图像的详细内容，包括物体、属性和关系，我们的方法将人类编写的参考文本替换为视觉上下文，并帮助视觉语言模型更好地理解图像，从而提高图像标题评估性能，并在多个数据集上进行的元评估验证了 VisCE2 在捕捉标题质量方面胜过常规预训练评估指标，并且在与人类判断方面呈现出卓越的一致性。

Feb, 2024

擅长标题，计数能力差：在地球观测数据上评估 GPT-4V

对大型视觉语言模型在地球观测数据中的能力进行了评估，发现其在场景理解和空间推理等任务上表现出色，但在物体定位和计数任务上有一定局限性，因此提出了一个全面的评估基准。

Jan, 2024

利用大型语言模型将视觉数据融合到丰富的图像标题中的 FuseCap

本文提出了一种用于创建图像标题的方法，通过采用额外的视觉信息，包括对象检测器、识别器等来丰富标题，经大型语言模型融合，生成全面的图像描述。实验证明，该方法有效，所提供的数据集显着提高了图像 - 文本检索。

May, 2023

ShareGPT4V：改进大型多模态模型的更好标题

在大型多模态模型领域，高效的模态对齐对于提升模型性能至关重要，但由于高质量图文数据的稀缺性而受限。为了解决这一瓶颈，我们介绍了 ShareGPT4V 数据集，这是一个包含 120 万条高度描述性的标题的创新大规模资源，其在多样性和信息内容上超越了现有数据集，涵盖了世界知识、对象属性、空间关系和美学评估。具体来说，ShareGPT4V 源于 Advanced GPT4-Vision 收集的 10 万个高质量标题，通过在该子集上进行训练，将其扩展到 120 万个。ShareGPT4V 首先在监督微调（SFT）阶段展示了其有效性，通过用高质量标题子集替换现有 SFT 数据集中等量的详细标题，显著提升了 MME 和 MMBench 基准测试中的 LLaVA-7B、LLaVA-1.5-13B 和 Qwen-VL-Chat-7B 等 LMMs 模型，分别增益为 222.8/22.0/22.3 和 2.7/1.3/1.5。我们进一步将 ShareGPT4V 数据集融入到预训练和 SFT 阶段，获得了 ShareGPT4V-7B，一个基于简单架构的优秀 LMM 模型，其在大多数多模态基准测试上表现出色。该项目可通过此 https 链接获得，以服务于 LMMs 社区的进一步发展。

Nov, 2023

GPT-4 作为科学图注的有效零样学习评估器

使用大型语言模型（LLMs）作为一种经济的、无需参考的方法来评估科学图的标题，通过与人类学术专家评估和其他模型评估相比较，GPT-4 在评估中表现出色，甚至超过了计算机科学与信息学本科生的评估结果。

Oct, 2023

DreamLIP：长描述文本的语言 - 图像预训练

通过在大规模语言模型中生成详细描述的长标题，我们提出了一种动态采样子标题的方法，以在对比学习框架中构建多个正向对并使用分组损失进行自监督训练，实验证明该方法在多种下游任务上具有明显优势。

Mar, 2024

从字幕到视觉概念的转换和回归

本文提出了一种用于自动生成图像描述的新方法：使用从图像标题数据集中直接学习的视觉探测器、语言模型和多模式相似模型。

Nov, 2014

检索辅助的图像字幕生成

提出了一种使用预训练的视觉和语言编码器的图像字幕生成方法，该方法联合处理图像和从 Datastore 检索到的字幕，实现了检索增强的语言生成，该方法名为 EXTRA。实验结果表明，检索足够数量的字幕可以提高字幕生成的质量。

Feb, 2023

EVCap：用于开放世界理解的外部视觉名称存储的检索增强图像字幕

该研究介绍了一种基于大型语言模型的图像字幕生成方法，利用外部可视 - 名称记忆检索并提供对象名称，从而更新对象知识记忆，实现对未知对象的理解，并在各种基准测试中展现出优越性能。

Nov, 2023

ALLaVA: 利用 GPT4V 合成的数据为轻量级视觉 - 语言模型开发

利用 GPT-4V 生成图像的详细标题、复杂的推理指令和详细答案，通过合成数据集，我们训练了 ALLaVA 模型，该模型在 12 个基准测试中取得了竞争性的性能，展示了在构建更高效的 LVLMs 中采用高质量数据的可行性。

Feb, 2024