基于视觉语言模型的字幕评估方法及其视觉上下文提取

Feb, 2024

基于视觉语言模型的字幕评估方法及其视觉上下文提取

Vision Language Model-based Caption Evaluation Method Leveraging Visual Context Extraction

Koki Maeda, Shuhei Kurita, Taiki Miyanishi, Naoaki Okazaki

TL;DR通过提取和组织图像的详细内容，包括物体、属性和关系，我们的方法将人类编写的参考文本替换为视觉上下文，并帮助视觉语言模型更好地理解图像，从而提高图像标题评估性能，并在多个数据集上进行的元评估验证了 VisCE2 在捕捉标题质量方面胜过常规预训练评估指标，并且在与人类判断方面呈现出卓越的一致性。

Abstract

Given the accelerating progress of vision and language modeling, accurate evaluation of machine-generated image captions remains critical. In order to evaluate captions more closely to human preferences,

machine-generated image captions evaluation metrics visce2 visual context

发现论文，激发创造

细节图像描述的基准测试与改进

图像标注长期以来一直被视为视觉理解的基本任务。最近，由于过时的短字幕基准和不可靠的评估指标，很少有大规模视觉 - 语言模型（LVLM）研究讨论模型的图像标注性能。本文提出了通过由人类专家注释的高质量评估数据集 GPT-4V 和 Gemini-1.5-Pro 来评估详细图像标注任务的基准。我们还设计了一种更可靠的字幕评估指标，称为 CAPTURE（通过提取和耦合核心信息进行字幕评估）。CAPTURE 从字幕中提取视觉元素（例如对象、属性和关系），然后通过三个阶段匹配这些元素，以实现与专家判断最高的一致性，超过其他基于规则或基于模型的字幕评估指标。所提出的基准和指标为 LVLM 的详细图像标注能力提供了可靠的评估。在此评估的指导下，我们通过一个五阶段的数据构建流程进一步探索释放 LVLM 的详细字幕能力。我们的流程只使用给定的 LVLM 本身和其他开源工具，没有任何人工或 GPT-4V 的注释。实验证明，所提出的数据构建策略显著提高了具有领先性能的 LVLM 生成的详细字幕数据的质量，并且在自我循环的范式中可以进一步提高数据质量。代码和数据集将在此 https URL 公开提供。

May, 2024

从字幕到视觉概念的转换和回归

本文提出了一种用于自动生成图像描述的新方法：使用从图像标题数据集中直接学习的视觉探测器、语言模型和多模式相似模型。

Nov, 2014

不要断章取义：统一的视觉语言预训练为上下文辅助的图像字幕生成

本文提出了一个基于 context-aware image captioning 的 unified Vision-Language (VL) model，并利用 pretraining 技术解决了 context-independent 问题，以达到比以前更好的效果。

Jun, 2023

ViCE！在图像生成评估中模仿人类的认知行为

通过模拟人类认知过程，我们提出了一种新的自动化的视觉概念评估方法（ViCE），用于评估生成 / 编辑的图像与相应提示 / 说明之间的一致性，并为图像评分。虽然这种模拟人类在图像评估过程中的新假设正处于初步评估阶段，但结果令人鼓舞，并为一种新形式的自动评估打开了大门，这将在图像生成或图像目标编辑任务变得越来越复杂时产生重要影响。

Jul, 2023

视觉实体的可迁移解码用于零样本图像字幕生成

我们提出了 ViECap，一种可转移的解码模型，利用实体感知解码生成见过和没见过的场景中的描述。ViECap 通过实体感知的硬提示将 LLMs 的注意力引导到图像中存在的视觉实体，实现了跨多样场景的连贯字幕生成。在通过实体感知的硬提示的情况下，ViECap 能够在从域内到域外的场景转移中保持性能。大量实验证明了 ViECap 在跨域（可转移）字幕生成方面的最新水平，并与以前基于 VLMs 的零样本方法在域内字幕生成方面有竞争力。

Jul, 2023

检索辅助的图像字幕生成

提出了一种使用预训练的视觉和语言编码器的图像字幕生成方法，该方法联合处理图像和从 Datastore 检索到的字幕，实现了检索增强的语言生成，该方法名为 EXTRA。实验结果表明，检索足够数量的字幕可以提高字幕生成的质量。

Feb, 2023

用于字到句的视觉语义相似度在标题生成的应用：得到的经验教训

本文提出一种改进图像 - 字幕生成系统的方法，通过从视觉上下文的角度修订语言生成输出的 beam search，采取视觉语义量化概念，在单词和句子级别上匹配与图像相关的信息来选择最相关的输出作为字幕。该方法可作为后处理方法应用于任何字幕系统中。

Sep, 2022

高效图像探索与用户引导图像标题生成的视觉分析

运用预训练的大规模语言 - 图像模型，本文尝试解决可视化分析中的两个问题：大规模图像数据集的高效探索与潜在数据偏差的发现以及图像标题的评估与生成过程的引导。通过分析从语言 - 图像模型自动生成的图像标题，我们能深入了解视觉内容的语义基础，并发现数据偏差。同时，通过展示视觉内容与文本标题之间的关联，揭示了预训练的语言 - 图像模型在标题生成能力上的不足，并提出了一种交互界面来引导标题生成。通过具体案例研究和大规模图像数据集的领域实践者验证了该系统的有效性。

Nov, 2023

EVCap：用于开放世界理解的外部视觉名称存储的检索增强图像字幕

该研究介绍了一种基于大型语言模型的图像字幕生成方法，利用外部可视 - 名称记忆检索并提供对象名称，从而更新对象知识记忆，实现对未知对象的理解，并在各种基准测试中展现出优越性能。

Nov, 2023

CLAIR: 使用大型语言模型评估图像标题

CLAIR 是一种新颖方法，利用大型语言模型（LLMs）的零 - shot 语言建模能力来评估候选图像标题，与现有方法相比，CLAIR 在与人类判断相符的标题质量方面表现出更强的相关性，能够清晰解读结果与其分配的分数背后的推理过程。

Oct, 2023