ConMe: 对现代 VLMs 的组合推理重新思考的评估

Jun, 2024

ConMe: 对现代 VLMs 的组合推理重新思考的评估

ConMe: Rethinking Evaluation of Compositional Reasoning for Modern VLMs

Irene Huang, Wei Lin, M. Jehanzeb Mirza, Jacob A. Hansen, Sivan Doveh...

TL;DR我们提出了一种新的数据生成流水线 ConMe，利用视觉 - 语言模型 (VLMs) 产生具有挑战性的复合推理问题，并通过与同类模型协同对话揭示其弱点，建立了一个稳健的复合推理基准，验证表明我们的基准相对于以前的基准提高了高达 33% 的复合推理性能。

Abstract

compositional reasoning (CR) entails grasping the significance of attributes, relations, and word order. Recent vision-language models (VLMs), comprising a visual encoder and a →

compositional reasoning vision-language models large language model conme compositional reasoning benchmark

发现论文，激发创造

CoVLM：通过通信解码在大型语言模型中组合视觉实体和关系

我们提出了 CoVLM 框架，通过引入通信令牌实现视觉感知与 LLMs 之间的无缝连接，从而大幅提升了以往视觉语言模型在组合推理任务上的性能，并在传统的视觉 - 语言任务中取得了最先进的表现。

Nov, 2023

大型语言模型在组合性关系推理中的限制探索

通过包含 1,500 个测试案例的评估，我们在英语中全面评估了大型语言模型（LLMs）在推理组合关系方面的能力，旨在了解 LLMs 处理不同语言环境下的组合关系推理的鲁棒性和适应性。

Mar, 2024

从博弈论视角诊断视觉语言模型的组合知识

通过评估不同方面的结构性理解，例如关系和属性，系统地揭示了视觉语言模型在结构性推理方面的弱点，并提供了有用且可靠的指导，以便未来的研究。

May, 2024

理解和修复 LLMs 中的组合推理

我们的研究揭示了 LLMs 在复合推理任务中的失败根源，即大多数失败源于生成或利用不当的隐性推理结果。深入研究发现隐性推理结果确实存在于中间层，并在塑造最终明确推理结果中发挥因果作用，我们还发现多头自注意力模块是生成和利用隐性推理结果的关键。基于以上发现，我们开发了 CREME，一种轻量级方法，通过编辑定位的多头自注意力模块来修复复合推理中的错误。我们的实证证据证明了 CREME 的有效性，为自主持续提升语言模型中的复合推理能力铺平了道路。

Feb, 2024

ViCor：用大型语言模型桥接视觉理解和常识推理

我们的研究工作探索了预训练的视觉语言模型（VLM）和大型语言模型（LLM）在视觉常识推理（VCR）中的协同能力。我们将 VCR 问题分为视觉常识理解（VCU）和视觉常识推断（VCI）两个方面。在 VCU 方面，预训练的 VLM 展示出强大的跨数据集泛化能力。然而，在 VCI 方面，VLM 面临困难。我们提出了名为 ViCor 的协作方法，在 VCI 中通过 LLM 主动引导 VLM 集中关注和收集相关的视觉元素来支持潜在的常识推断。我们的方法在两个 VCR 基准数据集上得到了评估，并且在不需要领域内监督微调的所有其他方法之上取得了优越的表现。

Oct, 2023

朝着真正无需零样本的组合视觉推理：以 LLMs 为程序员

通过引入空间和时间抽象例程以及利用少量标记示例自动生成上下文例子，我们提出了一个框架来消除人为构建的上下文例子，从而解决了可视推理中的一些问题并提升了性能。

Jan, 2024

测量和改进视觉 - 语言模型的思维链推理

通过 LLM-Human-in-the-Loop 流程和 CURE 基准，我们评估了现有的 VLMs，并发现即使是表现最佳的模型也无法展示出强大的视觉推理能力和一致性，表明需要大量努力使 VLMs 能够像人类一样系统而一致地进行视觉推理。作为初步步骤，我们提出了一个两阶段训练框架，旨在提高 VLMs 的推理性能和一致性。第一阶段涉及使用由 LLMs 自动生成的逐步推理样本对 VLMs 进行监督微调。在第二阶段，我们进一步通过结合 LLMs 提供的反馈来增强训练过程，以产生高度一致和可靠的推理链。我们在推理性能和一致性方面经验上突出了我们框架的有效性。

Sep, 2023

大型生成视觉语言模型的构成性研究

使用多模态指导调整的大型语言模型和生成型视觉语言模型，通过评估指标和基准测试提供了第一个无偏向性的复合性测评基准，从而开创了未来研究的方向。

Aug, 2023

视听模型何时以及为何表现为词袋模型，以及此问题的解决方案是什么？

通过创建 Attribution, Relation, and Order (ARO) 基准来系统性地 evaluated 视觉语言模型 (VLMs) encode 构成信息的能力，其中 ARO 包含 Visual Genome Attribution、Visual Genome Relation 和 COCO & Flickr30k-Order 等测试，并表明对比学习中 “hard negative mining” 的简单实现显著提高了理解顺序和组成性所需的任务的性能。

Oct, 2022

大型语言模型是视觉推理协调器

通过协调多个视觉 - 语言模型，我们提出 Cola，这是一种新颖的方法，通过促进自然语言交流以利用它们的不同且互补的能力，大型语言模型可以高效地协调多个视觉 - 语言模型，从而实现令人印象深刻的视觉推理能力。

Oct, 2023