基于视觉语言模型的字幕评估方法及其视觉上下文提取
图像标注长期以来一直被视为视觉理解的基本任务。最近,由于过时的短字幕基准和不可靠的评估指标,很少有大规模视觉 - 语言模型(LVLM)研究讨论模型的图像标注性能。本文提出了通过由人类专家注释的高质量评估数据集 GPT-4V 和 Gemini-1.5-Pro 来评估详细图像标注任务的基准。我们还设计了一种更可靠的字幕评估指标,称为 CAPTURE(通过提取和耦合核心信息进行字幕评估)。CAPTURE 从字幕中提取视觉元素(例如对象、属性和关系),然后通过三个阶段匹配这些元素,以实现与专家判断最高的一致性,超过其他基于规则或基于模型的字幕评估指标。所提出的基准和指标为 LVLM 的详细图像标注能力提供了可靠的评估。在此评估的指导下,我们通过一个五阶段的数据构建流程进一步探索释放 LVLM 的详细字幕能力。我们的流程只使用给定的 LVLM 本身和其他开源工具,没有任何人工或 GPT-4V 的注释。实验证明,所提出的数据构建策略显著提高了具有领先性能的 LVLM 生成的详细字幕数据的质量,并且在自我循环的范式中可以进一步提高数据质量。代码和数据集将在此 https URL 公开提供。
May, 2024
本文提出了一个基于 context-aware image captioning 的 unified Vision-Language (VL) model,并利用 pretraining 技术解决了 context-independent 问题,以达到比以前更好的效果。
Jun, 2023
通过模拟人类认知过程,我们提出了一种新的自动化的视觉概念评估方法(ViCE),用于评估生成 / 编辑的图像与相应提示 / 说明之间的一致性,并为图像评分。虽然这种模拟人类在图像评估过程中的新假设正处于初步评估阶段,但结果令人鼓舞,并为一种新形式的自动评估打开了大门,这将在图像生成或图像目标编辑任务变得越来越复杂时产生重要影响。
Jul, 2023
我们提出了 ViECap,一种可转移的解码模型,利用实体感知解码生成见过和没见过的场景中的描述。ViECap 通过实体感知的硬提示将 LLMs 的注意力引导到图像中存在的视觉实体,实现了跨多样场景的连贯字幕生成。在通过实体感知的硬提示的情况下,ViECap 能够在从域内到域外的场景转移中保持性能。大量实验证明了 ViECap 在跨域(可转移)字幕生成方面的最新水平,并与以前基于 VLMs 的零样本方法在域内字幕生成方面有竞争力。
Jul, 2023
提出了一种使用预训练的视觉和语言编码器的图像字幕生成方法,该方法联合处理图像和从 Datastore 检索到的字幕,实现了检索增强的语言生成,该方法名为 EXTRA。实验结果表明,检索足够数量的字幕可以提高字幕生成的质量。
Feb, 2023
本文提出一种改进图像 - 字幕生成系统的方法,通过从视觉上下文的角度修订语言生成输出的 beam search,采取视觉语义量化概念,在单词和句子级别上匹配与图像相关的信息来选择最相关的输出作为字幕。该方法可作为后处理方法应用于任何字幕系统中。
Sep, 2022
运用预训练的大规模语言 - 图像模型,本文尝试解决可视化分析中的两个问题:大规模图像数据集的高效探索与潜在数据偏差的发现以及图像标题的评估与生成过程的引导。通过分析从语言 - 图像模型自动生成的图像标题,我们能深入了解视觉内容的语义基础,并发现数据偏差。同时,通过展示视觉内容与文本标题之间的关联,揭示了预训练的语言 - 图像模型在标题生成能力上的不足,并提出了一种交互界面来引导标题生成。通过具体案例研究和大规模图像数据集的领域实践者验证了该系统的有效性。
Nov, 2023
该研究介绍了一种基于大型语言模型的图像字幕生成方法,利用外部可视 - 名称记忆检索并提供对象名称,从而更新对象知识记忆,实现对未知对象的理解,并在各种基准测试中展现出优越性能。
Nov, 2023
CLAIR 是一种新颖方法,利用大型语言模型(LLMs)的零 - shot 语言建模能力来评估候选图像标题,与现有方法相比,CLAIR 在与人类判断相符的标题质量方面表现出更强的相关性,能够清晰解读结果与其分配的分数背后的推理过程。
Oct, 2023