May, 2024

细节图像描述的基准测试与改进

TL;DR图像标注长期以来一直被视为视觉理解的基本任务。最近,由于过时的短字幕基准和不可靠的评估指标,很少有大规模视觉 - 语言模型(LVLM)研究讨论模型的图像标注性能。本文提出了通过由人类专家注释的高质量评估数据集 GPT-4V 和 Gemini-1.5-Pro 来评估详细图像标注任务的基准。我们还设计了一种更可靠的字幕评估指标,称为 CAPTURE(通过提取和耦合核心信息进行字幕评估)。CAPTURE 从字幕中提取视觉元素(例如对象、属性和关系),然后通过三个阶段匹配这些元素,以实现与专家判断最高的一致性,超过其他基于规则或基于模型的字幕评估指标。所提出的基准和指标为 LVLM 的详细图像标注能力提供了可靠的评估。在此评估的指导下,我们通过一个五阶段的数据构建流程进一步探索释放 LVLM 的详细字幕能力。我们的流程只使用给定的 LVLM 本身和其他开源工具,没有任何人工或 GPT-4V 的注释。实验证明,所提出的数据构建策略显著提高了具有领先性能的 LVLM 生成的详细字幕数据的质量,并且在自我循环的范式中可以进一步提高数据质量。代码和数据集将在此 https URL 公开提供。