automatic image description systems are commonly trained and evaluated using
crowdsourced, human-generated image descriptions. The best-performing system is
then determined using some measure of similarity to the reference data (BLEU,
Meteor, CIDER, etc). Thus, both the quality of the
通过结合现有的多模态大语言模型(MLLMs)与多个视觉专家模型,我们提出了一种名为图像文本化(IT)的创新框架,以最大程度地将视觉信息转化为文本,自动生成高质量的图像描述。我们还提出了几个综合评估基准来验证我们框架所创建的图像描述的质量,显示经过 IT 精选描述训练的 LLaVA-7B 模型在生成更丰富的图像描述方面的能力得到了提高。