LLMScore：揭示大型语言模型在文本到图像合成评估中的优势

May, 2023

LLMScore：揭示大型语言模型在文本到图像合成评估中的优势

LLMScore: Unveiling the Power of Large Language Models in Text-to-Image Synthesis Evaluation

Yujie Lu, Xianjun Yang, Xiujun Li, Xin Eric Wang, William Yang Wang

TL;DRLLMScore 利用大语言模型为文本到图像合成模型提供带有多层次的组成性评估得分，并且与通常使用的文本 - 图像匹配度量相比，其与人类评估之间的相关性显著更高。

Abstract

Existing automatic evaluation on text-to-image synthesis can only provide an image-text matching score, without considering the object-level compositionality, which results in poor correlation with human judgments. In this work, we propose →

text-to-image synthesis llmscore object-level compositionality evaluation scores large language models

发现论文，激发创造

SemScore：基于语义文本相似度的指导调整 LLMs 的自动评估

提出一种称为 SemScore 的直接将模型输出与目标响应进行语义文本相似度比较的简单但非常有效的评估度量，对于评估调整教学语言模型在人工评估方面具有优势。

Jan, 2024

利用大型视觉语言模型改善组合文本图像生成

利用大型视觉语言模型来评估生成图像与输入文本之间的对齐，在此基础上，通过细调扩散模型来提升其对齐能力。实验证明，该方法显著改善了构图图像生成中的文本 - 图像对齐，特别在物体数量、属性绑定、空间关系和审美质量方面。

Oct, 2023

iScore: 通过视觉分析解释语言模型自动评分摘要

使用 iScore 的交互式可视化分析工具，我们解决了评估大型语言模型在自动评分和信任建立方面的设计挑战，并通过与学习工程师的合作验证了该方法的有效性。

Mar, 2024

评估视觉语言模型的图像评论能力

使用大规模视觉语言模型（LVLMs）为图像生成评价文本。通过基于排名相关分析的评估方法，验证了 LVLMs 在区分高质量和次标准图像评价中的优越性。

Feb, 2024

TrustScore: 无需参考的 LLM 响应可信度评估

本研究提出了基于行为一致性概念的 TrustScore 框架，用于评估大型语言模型（LLMs）的响应与其内在知识的一致性，同时能够与事实核实方法无缝集成，实现与人类判断强相关性的结果。

Feb, 2024

LLM 蓝图：通过复杂和详细的提示实现文本生成图像

利用大型语言模型 (LLM) 从文本提示中提取关键组件，包括前景对象的边界框坐标、各个对象的详细文本描述和简洁的背景上下文。这些组件构成了布局到图像生成模型的基础，该模型通过两个阶段的操作实现，初步生成全局场景后，使用迭代细化方案对内容进行评估和修正，以确保与文本描述的一致性，从而在生成复杂的场景时展现出比传统扩散模型更好的召回率，经由用户研究进一步验证了我们的方法在从错综复杂的文本输入中生成连贯详细场景方面的功效。

Oct, 2023

EvalAlign: 通过监督微调人工注释的多模态大模型的精确定位评估文本到图像模型

本文提出了 EvalAlign，这是一种准确性、稳定性和细粒度特性突出的评估指标，通过利用在大规模数据集上进行预训练的多模式大型语言模型（MLLMs）的能力，通过开发集中在图像忠实度和文本 - 图像对齐的两个关键维度的评估协议以及详细的、细粒度的指导指令，进行生成图像的精确手动评分，使 MLLMs 与人类评估判断紧密对齐，得到了一个强大的评估模型。我们对 24 个文本 - 图像生成模型进行了全面的测试，结果表明 EvalAlign 不仅提供了更好的指标稳定性，而且比现有的指标更接近人类的偏好，从而验证了其在模型评估中的有效性和实用性。

Jun, 2024

分而治之：语言模型可用于规划和自我纠正组合式文本到图像生成

我们提出了 CompAgent，这是一种无需训练的组合文本到图像生成方法，核心是一个大型语言模型代理。我们的方法在复杂的文本提示下能够保持对图像的可控性，尤其是在保留对象属性和关系方面，通过先将文本提示分解成独立的对象、属性和场景布局，并引入验证和人类反馈机制来进一步校正属性错误和改进图像生成。

Jan, 2024

TouchStone: 通过语言模型评估视觉 - 语言模型

我们提出了一种评估方法，使用强大的大视觉语言模型作为评判者来全面评估大视觉语言模型的各种能力，通过构建综合的触石视觉对话数据集和整合详细的图像注释，我们能够在不需要人为干预的情况下，利用先进的大语言模型直接评估多模态对话的质量，从而为大视觉语言模型的评估提供参考，并铺就构建更强大的大视觉语言模型的道路。

Aug, 2023

探索精确度和召回率以评估 LLMs 的质量和多样性

该论文介绍了一个评估大型语言模型的新颖框架，重点是将图像生成的精确性和召回率指标应用于文本生成。通过对最先进的语言模型进行全面评估，揭示了它们在开放式生成任务上的性能问题，传统基准测试无法充分捕捉到。研究结果表明，在模型通过人类反馈进行微调时，生成样本的质量和多样性之间存在权衡。此工作扩展了基于分布的自然语言处理评估工具包，为当前大型语言模型在生成多样且高质量文本时面临的实际能力和挑战提供了深入洞察。

Feb, 2024