ConMe: 对现代 VLMs 的组合推理重新思考的评估
我们提出了 CoVLM 框架,通过引入通信令牌实现视觉感知与 LLMs 之间的无缝连接,从而大幅提升了以往视觉语言模型在组合推理任务上的性能,并在传统的视觉 - 语言任务中取得了最先进的表现。
Nov, 2023
通过包含 1,500 个测试案例的评估,我们在英语中全面评估了大型语言模型(LLMs)在推理组合关系方面的能力,旨在了解 LLMs 处理不同语言环境下的组合关系推理的鲁棒性和适应性。
Mar, 2024
我们的研究揭示了 LLMs 在复合推理任务中的失败根源,即大多数失败源于生成或利用不当的隐性推理结果。深入研究发现隐性推理结果确实存在于中间层,并在塑造最终明确推理结果中发挥因果作用,我们还发现多头自注意力模块是生成和利用隐性推理结果的关键。基于以上发现,我们开发了 CREME,一种轻量级方法,通过编辑定位的多头自注意力模块来修复复合推理中的错误。我们的实证证据证明了 CREME 的有效性,为自主持续提升语言模型中的复合推理能力铺平了道路。
Feb, 2024
我们的研究工作探索了预训练的视觉语言模型(VLM)和大型语言模型(LLM)在视觉常识推理(VCR)中的协同能力。我们将 VCR 问题分为视觉常识理解(VCU)和视觉常识推断(VCI)两个方面。在 VCU 方面,预训练的 VLM 展示出强大的跨数据集泛化能力。然而,在 VCI 方面,VLM 面临困难。我们提出了名为 ViCor 的协作方法,在 VCI 中通过 LLM 主动引导 VLM 集中关注和收集相关的视觉元素来支持潜在的常识推断。我们的方法在两个 VCR 基准数据集上得到了评估,并且在不需要领域内监督微调的所有其他方法之上取得了优越的表现。
Oct, 2023
通过引入空间和时间抽象例程以及利用少量标记示例自动生成上下文例子,我们提出了一个框架来消除人为构建的上下文例子,从而解决了可视推理中的一些问题并提升了性能。
Jan, 2024
通过 LLM-Human-in-the-Loop 流程和 CURE 基准,我们评估了现有的 VLMs,并发现即使是表现最佳的模型也无法展示出强大的视觉推理能力和一致性,表明需要大量努力使 VLMs 能够像人类一样系统而一致地进行视觉推理。作为初步步骤,我们提出了一个两阶段训练框架,旨在提高 VLMs 的推理性能和一致性。第一阶段涉及使用由 LLMs 自动生成的逐步推理样本对 VLMs 进行监督微调。在第二阶段,我们进一步通过结合 LLMs 提供的反馈来增强训练过程,以产生高度一致和可靠的推理链。我们在推理性能和一致性方面经验上突出了我们框架的有效性。
Sep, 2023
通过创建 Attribution, Relation, and Order (ARO) 基准来系统性地 evaluated 视觉语言模型 (VLMs) encode 构成信息的能力,其中 ARO 包含 Visual Genome Attribution、Visual Genome Relation 和 COCO & Flickr30k-Order 等测试,并表明对比学习中 “hard negative mining” 的简单实现显著提高了理解顺序和组成性所需的任务的性能。
Oct, 2022
通过协调多个视觉 - 语言模型,我们提出 Cola,这是一种新颖的方法,通过促进自然语言交流以利用它们的不同且互补的能力,大型语言模型可以高效地协调多个视觉 - 语言模型,从而实现令人印象深刻的视觉推理能力。
Oct, 2023