VIEScore：面向条件图像合成评估的可解释度量

Dec, 2023

VIEScore：面向条件图像合成评估的可解释度量

VIEScore: Towards Explainable Metrics for Conditional Image Synthesis Evaluation

Max Ku, Dongfu Jiang, Cong Wei, Xiang Yue, Wenhu Chen

TL;DR本文介绍了 VIESCORE，这是一种视觉指导的可解释度度量指标，用于评估任何条件图像生成任务。VIESCORE 利用多模态大语言模型（MLLMs）的通用知识作为支撑，无需训练或微调。在七项著名的条件图像任务上评估 VIESCORE，我们发现：（1）VIESCORE（GPT4-v）与人类评估的 Spearman 相关系数达到了 0.3，而人类之间的相关系数为 0.45。（2）与 GPT-4v 相比，使用开源 MLLM 的 VIESCORE 在评估合成图像时明显较弱。（3）VIESCORE 在生成任务中与人类评分具有相当的相关性，但在编辑任务中存在困难。基于这些结果，我们相信 VIESCORE 在评估图像合成任务中展现了巨大的潜力，可以取代人类评委的角色。

Abstract

In the rapidly advancing field of conditional image generation research, challenges such as limited explainability lie in effectively evaluating the performance and capabilities of various models. This paper intr

conditional image generation explainability viescore evaluation metric mllm

发现论文，激发创造

VisualGPTScore：多模态生成预训练评分的视觉语言推理

使用 VisualGPTScore 作为评估模型的强基准线，因为它表现出在最近提出的基于图片和文本检索的基准测试中良好的组合理解性能，该模型将 VisualGPTScore 分解为 P（text）和 Pointwise Mutual Information（PMI）的乘积，从而帮助诊断具有强语言偏见的数据集，并在使用信息理论框架的其他基准测试上消除偏差。

Jun, 2023

LLMScore：揭示大型语言模型在文本到图像合成评估中的优势

LLMScore 利用大语言模型为文本到图像合成模型提供带有多层次的组成性评估得分，并且与通常使用的文本 - 图像匹配度量相比，其与人类评估之间的相关性显著更高。

May, 2023

ImagenHub：标准化条件图像生成模型的评估

条件图像生成的推理和评估存在巨大的不一致性。本文提出 ImagenHub，一个一站式库来标准化所有条件图像生成模型的推理和评估，并通过定义七个主要任务、构建统一的推理管道和设计两个人工评估指标来解决这个问题。

Oct, 2023

GenAI-Bench: 评估和改进文本到视觉生成能力

本文通过对 GenAI-Bench 上的人类评分进行广泛研究，评估领先的图像和视频生成模型在复合文本到视觉生成的各个方面的性能，并发现 VQAScore 比先前的评估指标（如 CLIPScore）明显优于人类评分，而且 VQAScore 可以在黑盒的基础上通过简单地对候选图像进行排名（3 到 9 张）从而显著提高生成速度，在需要高级视觉语言推理的复合提示下，VQAScore 的排名效果比其他评分方法如 PickScore、HPSv2 和 ImageReward 提高 2 倍至 3 倍。

Jun, 2024

INSTRUCTSCORE：自动反馈的可解释文本生成评估方法

该研究介绍了 INSTRUCTSCORE，一种可解释的用于评估文本生成的评估度量标准，通过利用显式人类指令和 GPT4 的隐式知识来创建评估度量标准。研究结果表明，INSTRUCTSCORE 可以在不需要人类数据之间达到类似于 COMET22 等最先进度量标准的性能水平。

May, 2023

如何使用 ViTScore 度量评估图像的语义沟通能力？

语义通信（SC）是一个新的范式，其主要关注点从准确的比特传输转变为在通信中进行有效的语义信息交换；本研究提出了一种评估图像语义相似性的新指标 ViTScore，并通过与其他三种典型指标的比较，证明了 ViTScore 在 SC 场景中更好地评估图像的语义相似性，表明它是一种有效的性能指标。

Sep, 2023

ViCE！在图像生成评估中模仿人类的认知行为

通过模拟人类认知过程，我们提出了一种新的自动化的视觉概念评估方法（ViCE），用于评估生成 / 编辑的图像与相应提示 / 说明之间的一致性，并为图像评分。虽然这种模拟人类在图像评估过程中的新假设正处于初步评估阶段，但结果令人鼓舞，并为一种新形式的自动评估打开了大门，这将在图像生成或图像目标编辑任务变得越来越复杂时产生重要影响。

Jul, 2023

基于视觉语言模型的字幕评估方法及其视觉上下文提取

通过提取和组织图像的详细内容，包括物体、属性和关系，我们的方法将人类编写的参考文本替换为视觉上下文，并帮助视觉语言模型更好地理解图像，从而提高图像标题评估性能，并在多个数据集上进行的元评估验证了 VisCE2 在捕捉标题质量方面胜过常规预训练评估指标，并且在与人类判断方面呈现出卓越的一致性。

Feb, 2024

学习评估图像字幕生成

提出了一种基于学习的区分性评价指标，通过数据扩增方案显著提高了评价指标对病态构造的鲁棒性，并在 FLickr 8k 和 COCO 数据集上对其他指标表现良好。

Jun, 2018

不是所有的错误都是相等的：使用分层错误合成学习文本生成度量

本文提出利用迭代的错误合成与强度评分的新颖流程构建高度相关于人类判断的基于模型的指标 SESCORE，该指标无需人工注释，在多个不同的自然语言生成任务中优于所有现有的无监督指标，并且即使没有获得任何人工标注训练数据，SESCORE 也实现了与最佳监督指标 COMET 相当的性能。

Oct, 2022