X-IQE: 可解释的基于视觉大语言模型的文本生成图像质量评估
介绍了一种能够在生成图像时根据视觉信息进行条件控制的通用方法 X&Fuse,其在三种不同的文本图像生成场景中展现了其潜力:通过召回与相关图像有关的图像(Retrieve&Fuse),利用被剪裁对象图像进行主体驱动生成(Crop&Fuse),和直接访问图像场景(Scene&Fuse),同样有效。
Mar, 2023
利用大型视觉语言模型来评估生成图像与输入文本之间的对齐,在此基础上,通过细调扩散模型来提升其对齐能力。实验证明,该方法显著改善了构图图像生成中的文本-图像对齐,特别在物体数量、属性绑定、空间关系和审美质量方面。
Oct, 2023
本文介绍了VIESCORE,这是一种视觉指导的可解释度度量指标,用于评估任何条件图像生成任务。VIESCORE利用多模态大语言模型(MLLMs)的通用知识作为支撑,无需训练或微调。在七项著名的条件图像任务上评估VIESCORE,我们发现:(1)VIESCORE(GPT4-v)与人类评估的Spearman相关系数达到了0.3,而人类之间的相关系数为0.45。(2)与GPT-4v相比,使用开源MLLM的VIESCORE在评估合成图像时明显较弱。(3)VIESCORE在生成任务中与人类评分具有相当的相关性,但在编辑任务中存在困难。基于这些结果,我们相信VIESCORE在评估图像合成任务中展现了巨大的潜力,可以取代人类评委的角色。
Dec, 2023
在医学成像中,本研究以 IQAGPT 为例,结合了图像质量说明的 VLM 和 ChatGPT,利用大型语言模型实现图像质量评估和生成文本报告。结果表明 IQAGPT 在图像质量评估方面表现优异,超过了 GPT-4、CLIP-IQA 和仅依赖图像的多任务分类和回归模型。
Dec, 2023
我们在本文中提出了一种经验研究,介绍了一种用于文本到图像(T2I)生成模型的细致评估框架,应用于人类图像合成。我们的框架将评估分为两个不同的组别:第一组主要关注美学和真实性等图像质量,第二组则检验文本条件,包括概念覆盖和公平性。我们引入了一种创新的美学评分预测模型,评估生成图像的视觉吸引力,并首次提供了标记有生成人类图像低质量区域的数据集以便进行自动缺陷检测。我们对概念覆盖的探索考察了模型准确解释和渲染基于文本的概念的有效性,而公平性分析则揭示了模型输出中的偏见,特别关注性别、种族和年龄。尽管我们的研究以人类图像为基础,但这种双重面向的方法被设计成具有灵活性,可以应用于其他形式的图像生成,增强我们对生成模型的理解,并为下一代更复杂、具有上下文意识和伦理关注的生成模型铺平道路。我们将很快发布我们的代码,用于评估生成模型的数据以及标注有有缺陷区域的数据集。
Mar, 2024
通过对多模态大语言模型(MLLMs)在图像质量评估(IQA)中的应用进行综合系统的研究和探索,发现仅有关闭源GPT-4V能够合理地描述人类对图像质量的感知,但在细粒度的质量变化(如颜色差异)和多图像的视觉质量比较等任务上较为薄弱。
Mar, 2024
最近的文本到图像合成研究利用语言和视觉结合的基础模型取得了突破。为了确保文本和图像之间的内容对齐,研究人员开发了新的评估指标,通过收集带有复杂注释的数据集来研究视觉-语言模型的组合性以及作为内容对齐质量度量的能力。本文全面介绍了现有的文本到图像评估指标,并提出了一种新的对这些指标进行分类的分类方法。我们还回顾了经常使用的文本-图像基准数据集,并讨论了优化文本到图像合成模型的技术以提高质量和人类偏好的准则。最后,我们提出了改进文本到图像评估的准则,并讨论了目前的挑战和限制。
Mar, 2024
本文通过对GenAI-Bench上的人类评分进行广泛研究,评估领先的图像和视频生成模型在复合文本到视觉生成的各个方面的性能,并发现VQAScore比先前的评估指标(如CLIPScore)明显优于人类评分,而且VQAScore可以在黑盒的基础上通过简单地对候选图像进行排名(3到9张)从而显著提高生成速度,在需要高级视觉语言推理的复合提示下,VQAScore的排名效果比其他评分方法如PickScore、HPSv2和ImageReward提高2倍至3倍。
Jun, 2024
我们介绍了InterleavedBench作为第一个精心策划的用于评估混合文本图像生成的基准,并引入了使用GPT-4o提供准确且可解释的评估的强无参考度量InterleavedEval。通过广泛的实验和严格的人工评估,我们表明我们的基准和度量可以有效评估现有模型,并与以前的基于参考的度量具有较强的相关性。
Jun, 2024