你所看到的就是你所读到的?—— 改进文本 - 图像对齐评估
本文提出了一种方法,利用大型语言模型和视觉定位模型自动构建训练集来提供检测到的文本和图像对之间的详细文本和视觉错位的解释,实验证明在我们的训练集上微调视觉语言模型可以在二元对齐分类和解释生成任务上优于强基线模型。
Dec, 2023
通过分解式对齐评估和改进文本到图像的对齐效果,并使用 Decompositional-Alignment-Score 和 VQA 模型来测量不同断言的对齐度。实验结果表明,这种对齐度指标与人类评分高度相关,并且断言级别的对齐度评分可用于逐步提高最终图像输出中不同断言的表达。人类用户研究表明,该方法在整体文本到图像对齐准确性方面超过了之前的最先进方法 8.7%。
Jul, 2023
在这项工作中,我们在独立嵌入框架之上提出了一个图像 - 文本对齐模块 SelfAlign,通过自监督对比学习在概念级和语境级强制进行图像 - 文本对齐,提高了检索准确性同时保持了检索效率。
Aug, 2023
本文提出了 EvalAlign,这是一种准确性、稳定性和细粒度特性突出的评估指标,通过利用在大规模数据集上进行预训练的多模式大型语言模型(MLLMs)的能力,通过开发集中在图像忠实度和文本 - 图像对齐的两个关键维度的评估协议以及详细的、细粒度的指导指令,进行生成图像的精确手动评分,使 MLLMs 与人类评估判断紧密对齐,得到了一个强大的评估模型。我们对 24 个文本 - 图像生成模型进行了全面的测试,结果表明 EvalAlign 不仅提供了更好的指标稳定性,而且比现有的指标更接近人类的偏好,从而验证了其在模型评估中的有效性和实用性。
Jun, 2024
最近的文本到图像合成研究利用语言和视觉结合的基础模型取得了突破。为了确保文本和图像之间的内容对齐,研究人员开发了新的评估指标,通过收集带有复杂注释的数据集来研究视觉 - 语言模型的组合性以及作为内容对齐质量度量的能力。本文全面介绍了现有的文本到图像评估指标,并提出了一种新的对这些指标进行分类的分类方法。我们还回顾了经常使用的文本 - 图像基准数据集,并讨论了优化文本到图像合成模型的技术以提高质量和人类偏好的准则。最后,我们提出了改进文本到图像评估的准则,并讨论了目前的挑战和限制。
Mar, 2024
通过提取图像和文本特征,我们提出了一种简洁的方法来更好地对齐图像和文本,并通过多标签分类损失补充常用的图像 - 文本对比损失,以提高视觉 - 语言模型的性能。这种方法能够自动解析描述中的对象和属性,并使模型准确定位具有特定属性的对象。
Dec, 2023
为了使生成合适的图片字幕,需要对图像进行文本和语义理解。我们提出了两种新方法来构建线性映射,从而成功地在两个预训练模型的嵌入空间之间转移语义。使用我们的语义映射,我们为 MS-COCO 和 Flickr30k 数据集实现了强大的字幕性能。即使在数据有限的情况下,我们的方法也能在某种程度上超过其他零样本和微调竞争对手的表现。
Jul, 2023
本文提出了一种语义优化方法,称为视觉语义损失(VSL),以辅助模型专注于图像的主要内容,通过对图像的注释文本的利用,减少次要内容的负面影响,通过两个基准数据集(MSCOCO 和 Flickr30K)的大量实验,证明了该方法的卓越性能。
Apr, 2023
本文提出了 SEE,一个用于自然场景文本检测和识别的半监督神经网络,它能够通过端到端的优化方式实现。相较于现有的多个深度神经网络和多个预处理步骤,SEE 提出了使用单一的深度神经网络的方案,该网络能够学习从自然图像中检测和识别文本,同时我们介绍了我们的新方法并在标准基准数据集上进行了一系列实验,证明了我们方案的可行性以及达到了与现有技术相比的竞争性结果。
Dec, 2017