密集对齐字幕（DAC）促进视觉语言模型中的组合推理

May, 2023

密集对齐字幕（DAC）促进视觉语言模型中的组合推理

Dense and Aligned Captions (DAC) Promote Compositional Reasoning in VL Models

Sivan Doveh, Assaf Arbelle, Sivan Harary, Amit Alfassy, Roei Herzig...

TL;DR本文探索了影响视觉语言模型组合推理性能的两个因素：对齐图像 - 文本数据集的质量和文本的密度。通过在 CC3M 数据集上 fine-tuning CLIP 模型，我们证明了自动处理这些影响因素的方法可以使模型的组合推理性能显著提高，基于基线模型的表现增加了约 20％，平均提高 6.7％。

Abstract

vision and language (VL) models offer an effective method for aligning representation spaces of images and text, leading to numerous applications such as cross-modal retrieval, visual question answering, captioning, and more. However, the →

vision and language aligned image-text spaces object bias compositional reasoning vl dataset

发现论文，激发创造

一幅图片胜过 77 个文本标记：对密集字幕下的 CLIP 风格模型进行评估

有关大规模视觉语言数据集的筛选方法在数据集大小和质量之间进行权衡，而即使是可用的最高质量的筛选标题也远远不足以捕捉图像中丰富的视觉细节。

Dec, 2023

3VL：使用树结构教授视觉与语言模型组合概念

通过引入树增强视觉语言（3VL）模型架构和训练技术，以及我们提出的锚定推理方法和差分相关性（DiRe）可解释性工具，本研究扩展任意图像 - 文本对的文本内容为分层树状结构，并将该结构引入模型学习的视觉表示，提高了模型的解释能力和组合推理能力，同时展示了锚定和差分相关性工具的应用。

Dec, 2023

深度组合字幕生成：在无配对训练数据的情况下描述新的物体类别

本文提出了一种新的深度神经网络模型 —— 深度组合描述器（DCC），用于描述在未配对图像 - 句子数据集中出现的新概念，可以利用大型对象识别数据集和外部文本语料库，并在语义上相似的概念之间进行知识转移，从而可以描述新的对象及其与其他对象的交互作用。

Nov, 2015

联合推断与视觉上下文下的密集字幕

本研究提出了一种基于 “联合推理” 和 “上下文融合” 的模型管道来解决密集字幕的两个关键挑战，并在 Visual Genome 上取得了目前最佳算法的相对增益 73％的最新成果。

Nov, 2016

ViLLA: 从真实世界数据中细粒度的视觉 - 语言表示学习

通过系统评估，本研究首次证明了在训练数据的两两复杂性增加时，标准视觉语言模型在学习图像区域与文本属性之间的细粒度关系方面存在性能下降问题，为了解决这个问题，研究引入了 ViLLA，通过两个组件（自监督映射模型和对比视觉语言模型）来训练捕捉复杂数据集中图像区域与文本属性的细粒度关系，实验证明 ViLLA 在细粒度推理任务（如零样本目标检测和检索）上表现优于其他视觉语言模型。

Aug, 2023

利用大型视觉语言模型改善组合文本图像生成

利用大型视觉语言模型来评估生成图像与输入文本之间的对齐，在此基础上，通过细调扩散模型来提升其对齐能力。实验证明，该方法显著改善了构图图像生成中的文本 - 图像对齐，特别在物体数量、属性绑定、空间关系和审美质量方面。

Oct, 2023

域对齐的 CLIP 用于少样本分类

在这项工作中，我们介绍了一种用于 CLIP 的样本高效领域适应策略，称为 Domain Aligned CLIP (DAC)，它在不对主模型进行全量微调的情况下，改进了目标分布上的内部模态对齐和跨模态对齐。通过引入一个轻量级的适配器和一个简单的框架调节类文本嵌入，DAC 提供了一个计算效率高、抗分布转移性强且不改变 CLIP 参数的少样本微调框架，在 11 个广泛使用的图像分类任务中，以 2.3% 的提升应对 16 个样本分类挑战，并在 4 个鲁棒性基准上展现出竞争性能。

Nov, 2023

联合学习问答器和密集字幕生成器强化视觉语言预训练

本文提出一种名为 Joint QA and DC Generation (JADE) 的新方法，利用预训练的多模态模型及易于爬取的图像 - 文本对生成和过滤大规模的视觉问答和密集字幕数据集。我们将该方法应用于概念字幕（CC3M）数据集，生成了一个名为 CC3M-QA-DC 的新的数据集，在多任务方式预训练时，CC3M-QA-DC 可以改善各种骨干网络在各种下游任务中的性能，并与更多数据使用模型相比，我们生成的 CC3M-QA-DC 和更大的图像 - 文本数据集（例如 CC15M）相结合，在相同的计算条件下达到了有竞争力的结果。

May, 2023

COLA：如何将视觉语言模型适应对象属性本地化组合？

通过设计 Cola 基准测试，探索了 6 种微调策略，发现一种轻量级的多模态适配器优于常见策略，可在预训练模型生成的图像和语言特征上联合关注。

May, 2023

使用伪字幕标签进行开放词汇物体检测

该研究提出了一种名为 Pseudo Caption Labeling（PCL）的简单而有效的方法，利用图像字幕模型生成对不同角度目标实例的描述，通过这些大量的数据样本进行知识提炼，以丰富目标的属性和关系等细节，从而提高模型的性能，实验表明该方法可以与任何图像字幕模型一起使用，不需要对模型架构或训练流程进行任何限制。

Mar, 2023