Jun, 2024

EvalAlign: 通过监督微调人工注释的多模态大模型的精确定位评估文本到图像模型

TL;DR本文提出了 EvalAlign,这是一种准确性、稳定性和细粒度特性突出的评估指标,通过利用在大规模数据集上进行预训练的多模式大型语言模型(MLLMs)的能力,通过开发集中在图像忠实度和文本 - 图像对齐的两个关键维度的评估协议以及详细的、细粒度的指导指令,进行生成图像的精确手动评分,使 MLLMs 与人类评估判断紧密对齐,得到了一个强大的评估模型。我们对 24 个文本 - 图像生成模型进行了全面的测试,结果表明 EvalAlign 不仅提供了更好的指标稳定性,而且比现有的指标更接近人类的偏好,从而验证了其在模型评估中的有效性和实用性。