COLA：如何将视觉语言模型适应对象属性本地化组合？

May, 2023

COLA：如何将视觉语言模型适应对象属性本地化组合？

COLA: How to adapt vision-language models to Compose Objects Localized with Attributes?

Arijit Ray, Filip Radenovic, Abhimanyu Dubey, Bryan A. Plummer, Ranjay Krishna...

TL;DR通过设计 Cola 基准测试，探索了 6 种微调策略，发现一种轻量级的多模态适配器优于常见策略，可在预训练模型生成的图像和语言特征上联合关注。

Abstract

compositional reasoning is a hallmark of human visual intelligence; yet despite the size of large vision-language models, they struggle to represent simple compositions by combining objects with their attributes.

compositional reasoning vision-language models cola fine-tuning multi-modal adapter

发现论文，激发创造

语言在 CLIP 对象 - 属性组合泛化中起着关键作用

通过研究图像与语言模型 (CLIP) 在不同类型的分布转换下的通用性，重点关注图像与语言模型在新颖的属性 - 对象配对组合中的分类能力。研究表明，使用大规模的训练数据和语言监督可以显著提高视觉 - 语言模型的组合泛化能力。

Mar, 2024

大型语言模型是视觉推理协调器

通过协调多个视觉 - 语言模型，我们提出 Cola，这是一种新颖的方法，通过促进自然语言交流以利用它们的不同且互补的能力，大型语言模型可以高效地协调多个视觉 - 语言模型，从而实现令人印象深刻的视觉推理能力。

Oct, 2023

图像 - 文本 - 图形空间粗糙到精细对比学习，旨在提高视觉语言组合能力

通过构建图像场景的文本表示形式，提出了一种图形分解和增强框架以进行对比学习，同时提出了一种用于改善 scene graph 空间中属性绑定和关系理解的负样本挖掘技术，通过大量实验证明了该方法的有效性。

May, 2023

密集对齐字幕（DAC）促进视觉语言模型中的组合推理

本文探索了影响视觉语言模型组合推理性能的两个因素：对齐图像 - 文本数据集的质量和文本的密度。通过在 CC3M 数据集上 fine-tuning CLIP 模型，我们证明了自动处理这些影响因素的方法可以使模型的组合推理性能显著提高，基于基线模型的表现增加了约 20％，平均提高 6.7％。

May, 2023

使用对比学习和面向任务的 CLIP 特征的组合图像检索

利用 OpenAI CLIP 模型中的视觉和文本特征进行任务细化微调，然后通过训练 Combiner 网络来整合双模态信息，并提供用于检索的组合特征，结果表明这种方法在复合图像检索方面优于当前先进方法。

Aug, 2023

CLoVe: 对比视觉语言模型中的组合式语言编码

近年来，视觉与语言任务的性能显著提升。本文介绍了一个框架，极大地提高了现有模型对构成性语言的编码能力，在构成性基准测试中绝对改进了 10%，同时在标准的对象识别和检索基准测试中保持或提高了性能。

Feb, 2024

迭代学习在大型视觉语言模型中提高组合性

通过引入一种新的迭代训练算法，以文化传播作为归纳先验，本研究以视觉代理和语言代理之间的 Lewis 信号游戏重新定义了视觉 - 语言对比学习，并通过在训练过程中迭代重置代理权重的方式实现文化传播，使得模型对于合成语言的特性变得更易于学习，达到了在 SugarCrepe 评测中相比标准 CLIP 模型分别提升 4.7% 和 4.0% 的效果。

Apr, 2024

CLIP 是否绑定概念？探索大型图像模型的组合能力

本文探讨了 CLIP 在合成知识下图像描述的能力，提出了五种计算模型并设计出新的训练算法 CoSI，在属性 - 对象标记任务和空间关系任务中测试了 CLIP 的表现，结果表明虽然 CLIP 在属性 - 对象标记任务中表现良好且能够推广至新的未知属性 - 对象组合，但其无法可靠地绑定特性，对于对象之间的关系无法可靠地学习。

Dec, 2022

分而治之：语言模型可用于规划和自我纠正组合式文本到图像生成

我们提出了 CompAgent，这是一种无需训练的组合文本到图像生成方法，核心是一个大型语言模型代理。我们的方法在复杂的文本提示下能够保持对图像的可控性，尤其是在保留对象属性和关系方面，通过先将文本提示分解成独立的对象、属性和场景布局，并引入验证和人类反馈机制来进一步校正属性错误和改进图像生成。

Jan, 2024

组合对象关系和属性进行图像 - 文本匹配

本研究中，我们通过引入场景图表示图像标题，利用图注意力网络构建了一个双编码器的图像 - 文本匹配模型，能高效地编码物体 - 属性和物体 - 物体的语义关系，通过提供对图神经网络的强关系归纳偏置进行学习。我们的模型在两个重要的图像 - 文本检索基准数据集 Flickr30K 和 MSCOCO 上进行实验，证明了相对于计算成本高的交叉注意方法，CORA 在召回得分上具有优势，同时实现了双编码器的快速计算速度。

Jun, 2024