Jun, 2024

图像文本化:一种自动创建准确详细图像描述的框架

TL;DR通过结合现有的多模态大语言模型(MLLMs)与多个视觉专家模型,我们提出了一种名为图像文本化(IT)的创新框架,以最大程度地将视觉信息转化为文本,自动生成高质量的图像描述。我们还提出了几个综合评估基准来验证我们框架所创建的图像描述的质量,显示经过 IT 精选描述训练的 LLaVA-7B 模型在生成更丰富的图像描述方面的能力得到了提高。