EvalAlign: 通过监督微调人工注释的多模态大模型的精确定位评估文本到图像模型

Jun, 2024

EvalAlign: 通过监督微调人工注释的多模态大模型的精确定位评估文本到图像模型

EvalAlign: Evaluating Text-to-Image Models through Precision Alignment of Multimodal Large Models with Supervised Fine-Tuning to Human Annotations

PDF

Zhiyu Tan, Xiaomeng Yang, Luozheng Qin, Mengping Yang, Cheng Zhang...

TL;DR本文提出了 EvalAlign，这是一种准确性、稳定性和细粒度特性突出的评估指标，通过利用在大规模数据集上进行预训练的多模式大型语言模型（MLLMs）的能力，通过开发集中在图像忠实度和文本 - 图像对齐的两个关键维度的评估协议以及详细的、细粒度的指导指令，进行生成图像的精确手动评分，使 MLLMs 与人类评估判断紧密对齐，得到了一个强大的评估模型。我们对 24 个文本 - 图像生成模型进行了全面的测试，结果表明 EvalAlign 不仅提供了更好的指标稳定性，而且比现有的指标更接近人类的偏好，从而验证了其在模型评估中的有效性和实用性。

Abstract

The recent advancements in text-to-image generative models have been remarkable. Yet, the field suffers from a lack of evaluation metrics that accurately reflect the performance of these models, particularly lack

text-to-image generative models evaluation metrics fine-grained metrics multimodal large language models text-image alignment

发现论文，激发创造

AlignGPT: 具有自适应对齐能力的多模态大型语言模型

利用新的多模态大型语言模型 AlignGPT，通过在预训练阶段为不同的图像 - 文本对分配不同级别的对齐能力，并在指导微调阶段自适应地组合这些不同级别的对齐能力，以满足不同指令的动态对齐需求，取得了 12 个基准测试的竞争性性能。

May, 2024

利用人类反馈对齐文本与图像模型

本文介绍了一种 Fine-Tuning 方法，使用人类反馈对齐文本到图像的 Deep generative model，通过分析设计选择平衡对齐 - 准确性的权衡，最终通过奖励加权似然优化，使得生成的对象更准确地反映了指定颜色、数量和背景等特征。结果表明，利用人类反馈可以显著改善文本到图像的 Deep generative model 的性能。

Feb, 2023

超越模仿：利用细粒度质量信号进行对齐

我们提出了一种名为 FIGA 的改进对齐方法，通过利用细粒度的质量信号，即对比好坏回答的方式，指导大型语言模型的对齐学习。实验证明了我们的方法的有效性。

Nov, 2023

FINEMATCH：基于方面的细粒度图像与文本不匹配检测与校正

提出了 FineMatch，一种新的面向细粒度文本和图像匹配的方面研究和评估 VLMs 组合性的基准，通过引入一个新的任务来检测和纠正文本和图像不匹配，对现有的主流 VLMs 进行了全面的实验分析。

Apr, 2024

多模态大语言模型是文本到图像生成的人类对齐标注器

通过利用多模态大型语言模型创建 VisionPrefer，我们构建了一个高质量和细粒度的用户偏好数据集，用于指导文本到图像生成模型的训练，该数据集在多个偏好方面捕捉了人类的喜好，并且其性能优于之前的人类偏好度量标准，并证明了将人工智能生成的合成数据作为监督信号集成到视觉生成模型中，是实现与人类偏好更好的对齐的一个有前途的途径。

Apr, 2024

GenEval: 评估文本与图像对齐的对象为中心框架

通过 GenEval 评估框架，我们展示了当前目标检测模型可用于评估各种生成任务的文本到图像模型，并分析其生成能力。我们发现最近的模型在这些任务上有显著改进，但在空间关系和属性绑定等复杂能力方面仍有缺失。最后，我们展示了如何使用 GenEval 来发现现有的失败模式，以促进下一代文本到图像模型的发展。

Oct, 2023

面向快速准确的图像文本检索与自监督细粒度对齐

在这项工作中，我们在独立嵌入框架之上提出了一个图像 - 文本对齐模块 SelfAlign，通过自监督对比学习在概念级和语境级强制进行图像 - 文本对齐，提高了检索准确性同时保持了检索效率。

Aug, 2023

LLMScore：揭示大型语言模型在文本到图像合成评估中的优势

LLMScore 利用大语言模型为文本到图像合成模型提供带有多层次的组成性评估得分，并且与通常使用的文本 - 图像匹配度量相比，其与人类评估之间的相关性显著更高。

May, 2023

基于文本的多模态学习对齐

该研究论文针对多模态学习中的模态不匹配问题，提出了一种创新方法，即文本为中心的多模态学习对齐（TAMML）方法。通过利用文本的独特特性作为统一的语义空间，TAMML 在处理未见过的、多样化的和不可预测的模态组合时取得了显著改进。TAMML 不仅适应不同的模态，还保持了强大的性能，展示了基于基本模型的潜力，克服了传统固定模态框架中嵌入表示的局限性。该研究为领域做出了贡献，为模态可用性动态和不确定性的实际应用提供了灵活有效的解决方案。

Feb, 2024

自我演进的策略优化微调

本研究在大型语言模型（LLMs）对齐方面引入自我演进微调（SEFT），旨在消除对注释样本的需求，同时保持 SFT 的稳定性和效率。通过 SEFT，模型能利用大量未标志的数据进行策略优化。实验结果表明 SEFT 的有效性，并对其相对于现有对齐技术的优势进行了全面分析。

Jun, 2024