错配探索：图像 - 文本错位的视觉与文本反馈

Dec, 2023

错配探索：图像 - 文本错位的视觉与文本反馈

Mismatch Quest: Visual and Textual Feedback for Image-Text Misalignment

Brian Gordon, Yonatan Bitton, Yonatan Shafir, Roopal Garg, Xi Chen...

TL;DR本文提出了一种方法，利用大型语言模型和视觉定位模型自动构建训练集来提供检测到的文本和图像对之间的详细文本和视觉错位的解释，实验证明在我们的训练集上微调视觉语言模型可以在二元对齐分类和解释生成任务上优于强基线模型。

Abstract

While existing image-text alignment models reach high quality binary assessments, they fall short of pinpointing the exact source of misalignment. In this paper, we present a method to provide detailed textual and visual explanation of detected misalignments between text-image pairs. W

image-text alignment detailed textual explanation visual grounding models misaligned captions explanation generation

发现论文，激发创造

划分、评估与改进：基于迭代 VQA 反馈的文本到图像对齐的评估和改进

通过分解式对齐评估和改进文本到图像的对齐效果，并使用 Decompositional-Alignment-Score 和 VQA 模型来测量不同断言的对齐度。实验结果表明，这种对齐度指标与人类评分高度相关，并且断言级别的对齐度评分可用于逐步提高最终图像输出中不同断言的表达。人类用户研究表明，该方法在整体文本到图像对齐准确性方面超过了之前的最先进方法 8.7%。

Jul, 2023

利用人类反馈对齐文本与图像模型

本文介绍了一种 Fine-Tuning 方法，使用人类反馈对齐文本到图像的 Deep generative model，通过分析设计选择平衡对齐 - 准确性的权衡，最终通过奖励加权似然优化，使得生成的对象更准确地反映了指定颜色、数量和背景等特征。结果表明，利用人类反馈可以显著改善文本到图像的 Deep generative model 的性能。

Feb, 2023

错位，对比，提炼：再思语言 - 图像预训练中的错位问题

提出了一种新的度量学习方法 ——Misalign, Contrast then Distill (MCD)，该方法利用图像和文本之间的错位作为额外的训练来源，通过预测增强图像和文本之间的连续错位程度，达到了多个分类和检索数据集中最先进的迁移能力。

Dec, 2023

你所看到的就是你所读到的？—— 改进文本 - 图像对齐评估

本文研究了文本和对应图像是否语义对齐这一问题，提出了使用人类判断和自动化方法来确定文本 - 图像对齐的方式，本文改进了以前的方法，并提出了一种新的方法，它可以定位图像和给定文本的特定不对齐部分，并将其应用于自动重新排列生成的文本到图像的候选项中。

May, 2023

TagAlign: 多标签分类改进视觉和语言对齐

通过提取图像和文本特征，我们提出了一种简洁的方法来更好地对齐图像和文本，并通过多标签分类损失补充常用的图像 - 文本对比损失，以提高视觉 - 语言模型的性能。这种方法能够自动解析描述中的对象和属性，并使模型准确定位具有特定属性的对象。

Dec, 2023

对比式视觉 - 语言对齐提高指示学习效率

通过将 Contrastive 和 Generative 方法应用于 ViT 和 LLM 的表示对齐，我们提出了 CG-VLM 模型，有效地实现了视觉 - 语言的对齐，成为一种高效的指令学习器。

Nov, 2023

视觉对齐中的图像识别：优先考虑视觉相似性

通过对比图像输入，对每个文本标记的预测值差异提供了强大的视觉关联指导，我们提出了对每个文本标记赋予不同贡献的方法，名为 Contrastive ALignment (CAL)。我们的实验证明，CAL 方法在各种基准数据集上始终改善了不同类型的 VLM，并且与其他数据调整策略相比，我们的方法具有最小的额外计算开销。

May, 2024

压缩与对齐：用人类知识筛选图像文本数据

该研究通过采用人工智能算法对图像文本数据进行高质量压缩，并利用训练出的奖励模型作为人类般的裁判来过滤不对齐 / 低质量的图像文本对。

Dec, 2023

深度视觉语义对齐生成图像描述

本文介绍了一个基于卷积神经网络、双向递归神经网络和多模态嵌入的模型，用于生成图像及其区域的自然语言描述，并展示了在多个数据集上，该模型的对齐模型均优于基准检索结果，生成的描述显著优于检索结果和基准。

Dec, 2014

学习多模态语义对齐模型以进行故事可视化

在 GAN 生成模型中学习文本和图像表示之间的语义对齐以缓解文本图像语义不匹配问题，进而生成连贯、高质量的多句故事可视化。

Nov, 2022