你所看到的就是你所读到的？—— 改进文本 - 图像对齐评估

May, 2023

你所看到的就是你所读到的？—— 改进文本 - 图像对齐评估

What You See is What You Read? Improving Text-Image Alignment Evaluation

Michal Yarom, Yonatan Bitton, Soravit Changpinyo, Roee Aharoni, Jonathan Herzig...

TL;DR本文研究了文本和对应图像是否语义对齐这一问题，提出了使用人类判断和自动化方法来确定文本 - 图像对齐的方式，本文改进了以前的方法，并提出了一种新的方法，它可以定位图像和给定文本的特定不对齐部分，并将其应用于自动重新排列生成的文本到图像的候选项中。

Abstract

Automatically determining whether a text and a corresponding image are semantically aligned is a significant challenge for vision-language models, with applications in generative text-to-image and →

text-image alignment vision-language models automatic evaluation generative text-to-image image-to-text tasks

发现论文，激发创造

错配探索：图像 - 文本错位的视觉与文本反馈

本文提出了一种方法，利用大型语言模型和视觉定位模型自动构建训练集来提供检测到的文本和图像对之间的详细文本和视觉错位的解释，实验证明在我们的训练集上微调视觉语言模型可以在二元对齐分类和解释生成任务上优于强基线模型。

Dec, 2023

划分、评估与改进：基于迭代 VQA 反馈的文本到图像对齐的评估和改进

通过分解式对齐评估和改进文本到图像的对齐效果，并使用 Decompositional-Alignment-Score 和 VQA 模型来测量不同断言的对齐度。实验结果表明，这种对齐度指标与人类评分高度相关，并且断言级别的对齐度评分可用于逐步提高最终图像输出中不同断言的表达。人类用户研究表明，该方法在整体文本到图像对齐准确性方面超过了之前的最先进方法 8.7%。

Jul, 2023

面向快速准确的图像文本检索与自监督细粒度对齐

在这项工作中，我们在独立嵌入框架之上提出了一个图像 - 文本对齐模块 SelfAlign，通过自监督对比学习在概念级和语境级强制进行图像 - 文本对齐，提高了检索准确性同时保持了检索效率。

Aug, 2023

EvalAlign: 通过监督微调人工注释的多模态大模型的精确定位评估文本到图像模型

本文提出了 EvalAlign，这是一种准确性、稳定性和细粒度特性突出的评估指标，通过利用在大规模数据集上进行预训练的多模式大型语言模型（MLLMs）的能力，通过开发集中在图像忠实度和文本 - 图像对齐的两个关键维度的评估协议以及详细的、细粒度的指导指令，进行生成图像的精确手动评分，使 MLLMs 与人类评估判断紧密对齐，得到了一个强大的评估模型。我们对 24 个文本 - 图像生成模型进行了全面的测试，结果表明 EvalAlign 不仅提供了更好的指标稳定性，而且比现有的指标更接近人类的偏好，从而验证了其在模型评估中的有效性和实用性。

Jun, 2024

评估文本到图像合成：图像质量指标的调查和分类

最近的文本到图像合成研究利用语言和视觉结合的基础模型取得了突破。为了确保文本和图像之间的内容对齐，研究人员开发了新的评估指标，通过收集带有复杂注释的数据集来研究视觉 - 语言模型的组合性以及作为内容对齐质量度量的能力。本文全面介绍了现有的文本到图像评估指标，并提出了一种新的对这些指标进行分类的分类方法。我们还回顾了经常使用的文本 - 图像基准数据集，并讨论了优化文本到图像合成模型的技术以提高质量和人类偏好的准则。最后，我们提出了改进文本到图像评估的准则，并讨论了目前的挑战和限制。

Mar, 2024

TagAlign: 多标签分类改进视觉和语言对齐

通过提取图像和文本特征，我们提出了一种简洁的方法来更好地对齐图像和文本，并通过多标签分类损失补充常用的图像 - 文本对比损失，以提高视觉 - 语言模型的性能。这种方法能够自动解析描述中的对象和属性，并使模型准确定位具有特定属性的对象。

Dec, 2023

压缩与对齐：用人类知识筛选图像文本数据

该研究通过采用人工智能算法对图像文本数据进行高质量压缩，并利用训练出的奖励模型作为人类般的裁判来过滤不对齐 / 低质量的图像文本对。

Dec, 2023

SITTA: 图像描述任务中的语义图像文本对齐

为了使生成合适的图片字幕，需要对图像进行文本和语义理解。我们提出了两种新方法来构建线性映射，从而成功地在两个预训练模型的嵌入空间之间转移语义。使用我们的语义映射，我们为 MS-COCO 和 Flickr30k 数据集实现了强大的字幕性能。即使在数据有限的情况下，我们的方法也能在某种程度上超过其他零样本和微调竞争对手的表现。

Jul, 2023

通过保留视觉主要语义实现图像文本检索

本文提出了一种语义优化方法，称为视觉语义损失（VSL），以辅助模型专注于图像的主要内容，通过对图像的注释文本的利用，减少次要内容的负面影响，通过两个基准数据集（MSCOCO 和 Flickr30K）的大量实验，证明了该方法的卓越性能。

Apr, 2023

SEE：半监督端到端场景文本识别

本文提出了 SEE，一个用于自然场景文本检测和识别的半监督神经网络，它能够通过端到端的优化方式实现。相较于现有的多个深度神经网络和多个预处理步骤，SEE 提出了使用单一的深度神经网络的方案，该网络能够学习从自然图像中检测和识别文本，同时我们介绍了我们的新方法并在标准基准数据集上进行了一系列实验，证明了我们方案的可行性以及达到了与现有技术相比的竞争性结果。

Dec, 2017