大型生成视觉语言模型的构成性研究

Aug, 2023

大型生成视觉语言模型的构成性研究

An Examination of the Compositionality of Large Generative Vision-Language Models

Teli Ma, Rong Li, Junwei Liang

TL;DR使用多模态指导调整的大型语言模型和生成型视觉语言模型，通过评估指标和基准测试提供了第一个无偏向性的复合性测评基准，从而开创了未来研究的方向。

Abstract

With the success of Large Language Models (LLMs), a surge of Generative Vision-Language Models (GVLMs) have been constructed via multimodal instruction tuning. The tuning recipe substantially deviates from the common contrastive vision-language learning. However, the performance of GVLMs in multimodal compositional reasoning remains largely unexplored, as ex

generative vision-language models multimodal compositional reasoning evaluation metrics morphological bias de-biased benchmark

发现论文，激发创造

探索视觉语言组合性和识别的光谱

研究了视觉和语言模型领域的复杂关系，特别是在语言理解和细粒度图像与文本对齐方面，探索并评估了现有的 VLMs，在组合性和识别准确性之间的模式和权衡，提出了改进两者能力和基准的策略性努力的必要性。

Jun, 2024

从博弈论视角诊断视觉语言模型的组合知识

通过评估不同方面的结构性理解，例如关系和属性，系统地揭示了视觉语言模型在结构性推理方面的弱点，并提供了有用且可靠的指导，以便未来的研究。

May, 2024

CLoVe: 对比视觉语言模型中的组合式语言编码

近年来，视觉与语言任务的性能显著提升。本文介绍了一个框架，极大地提高了现有模型对构成性语言的编码能力，在构成性基准测试中绝对改进了 10%，同时在标准的对象识别和检索基准测试中保持或提高了性能。

Feb, 2024

衡量视觉语言模型的语言先验在组合推理中的作用

我们识别了视觉 - 语言组合性的两个源头：语言先验和图像与文本之间的相互作用。我们展示了当前改进组合泛化的尝试依赖于语言先验而非图像信息，并提出了一个不依赖语言先验的组合性新度量标准。

Oct, 2023

利用大型视觉语言模型改善组合文本图像生成

利用大型视觉语言模型来评估生成图像与输入文本之间的对齐，在此基础上，通过细调扩散模型来提升其对齐能力。实验证明，该方法显著改善了构图图像生成中的文本 - 图像对齐，特别在物体数量、属性绑定、空间关系和审美质量方面。

Oct, 2023

一个评估视觉 - 语言模型中性别偏见的统一框架和数据集

通过构建统一的框架系统评估大规模视觉语言模型中的性别职业偏见，我们在不同输入输出模态下的基准测试中观察到不同的偏见程度和方向，希望我们的工作能指导未来改进视觉语言模型以学习社会上没有偏见的表示方式。

Feb, 2024

大型视觉 - 语言模型中的复合推理引导

使用一种新颖的生成方法，我们对大型视觉语言模型（如 GPT-4）进行控制，以描述图像并进行组合推理，在 Winoground 数据集上优于其他嵌入式方法，并在最佳描述的增强下获得最高 10% 的准确率改进。

Jan, 2024

ConMe: 对现代 VLMs 的组合推理重新思考的评估

我们提出了一种新的数据生成流水线 ConMe，利用视觉 - 语言模型 (VLMs) 产生具有挑战性的复合推理问题，并通过与同类模型协同对话揭示其弱点，建立了一个稳健的复合推理基准，验证表明我们的基准相对于以前的基准提高了高达 33% 的复合推理性能。

Jun, 2024

综合、诊断和优化：朝着细粒度的视觉 - 语言理解方向

视觉语言模型（VLM）在各种下游任务中展现出了卓越的性能，但是对于属性和物体间关系等细粒度的视觉语言概念的理解仍然是一个重要挑战。我们提出了一种渐进式流水线来合成在特定属性上变化而在其他方面保持一致的图像，并利用这个数据引擎设计了一个用于诊断物体尺寸、位置、存在和数量理解的基准测试 SPEC。令人惊讶的是，四个领先的 VLM 在 SPEC 上的表现接近随机猜测，揭示了重大局限性。鉴于此，我们提出了一种简单而有效的方法来优化 VLM 在细粒度理解上的性能，在不影响零样本性能的情况下，显著改善了 SPEC 的结果。在其他两个细粒度基准测试上的结果也表明了我们方法的可迁移性，并进一步验证了我们的方法。

Nov, 2023

CoVLM：通过通信解码在大型语言模型中组合视觉实体和关系

我们提出了 CoVLM 框架，通过引入通信令牌实现视觉感知与 LLMs 之间的无缝连接，从而大幅提升了以往视觉语言模型在组合推理任务上的性能，并在传统的视觉 - 语言任务中取得了最先进的表现。

Nov, 2023