大型视觉 - 语言模型中的复合推理引导

Jan, 2024

大型视觉 - 语言模型中的复合推理引导

Prompting Large Vision-Language Models for Compositional Reasoning

Timothy Ossowski, Ming Jiang, Junjie Hu

TL;DR使用一种新颖的生成方法，我们对大型视觉语言模型（如 GPT-4）进行控制，以描述图像并进行组合推理，在 Winoground 数据集上优于其他嵌入式方法，并在最佳描述的增强下获得最高 10% 的准确率改进。

Abstract

vision-language models such as CLIP have shown impressive capabilities in encoding texts and images into aligned embeddings, enabling the retrieval of multimodal data in a shared embedding space. However, these embedding-based models still face challenges in effectively matching images

vision-language models embedding-based models visio-linguistic compositionality step-by-step reasoning generative method

发现论文，激发创造

Winoground: 探究视觉和语言模型的视觉语言组成性

介绍了一项新的任务和数据集 Winoground，用于评估视觉和语言模型进行视觉 - 语言组成推理的能力，展示了目前最先进的视觉和语言模型在该任务上表现不尽如人意的情况，并探讨如何改进模型的方法。

Apr, 2022

CLoVe: 对比视觉语言模型中的组合式语言编码

近年来，视觉与语言任务的性能显著提升。本文介绍了一个框架，极大地提高了现有模型对构成性语言的编码能力，在构成性基准测试中绝对改进了 10%，同时在标准的对象识别和检索基准测试中保持或提高了性能。

Feb, 2024

增强 CLIP 的改进视觉语言推理

通过使用不同的图像参数化方法，利用生成模型和巧妙设计的蒸馏目标，我们提出了一种轻量级而高效的方法 SDS-CLIP，来改善 CLIP 模型的组合视觉 - 语言推理能力并在多个数据集上显示了显著的性能提升。

Jul, 2023

多语言视觉推理中缺少的内容及其修复方法

NLP 模型通过在视觉推理任务上的测试，评估了多语言、多模态方面的能力。通过分析模型的失败，提出了三个针对性干预措施，包括翻译 - 测试方法、视觉编程方法和利用图像字幕处理多模态问题。这些干预措施在零 - shot 设置下提高了 open model LLaVA 13.4% 的性能，并稍微改善了 GPT-4V 的性能。

Mar, 2024

语言空间中的图像：探索大语言模型在视觉和语言任务中的适用性

本篇文章研究了如何通过联合对话模型和语言模型使其能够有效地处理视觉信息，解决了在有限样本时视觉 - 语言任务的问题，使输出更易于解释。

May, 2023

通过多图像生成改善语言模型中的视觉常识

基于多模态知识的常识推理是根本，我们介绍了一种方法来增强大型语言模型的视觉常识能力，该方法通过生成多个图像并将其与模型的决策过程相融合来提供综合的图像和文本知识。这种方法在不仅在视觉常识上，还在传统自然语言处理基准上优于现有基线模型。

Jun, 2024

CounterCurate：通过反事实的例子增强物理和语义的视觉 - 语言组合推理能力

通过 CounterCurate 框架，综合改善对比式和生成式多模态模型的视觉 - 语言组合推理能力，通过解决忽视物理基础推理（计数和位置理解）和使用高能力文本和图像生成模型进行语义反事实微调的潜力等两个问题来提高推理性能。

Feb, 2024

评估 GPT4-V 在结构化推理任务上的表现

最近，GPT-4 语言模型与视觉能力相结合，我们对 GPT-4V 和其他五个基准模型进行了提示评估，包括数学推理、视觉数据分析和代码生成等结构化推理任务。我们发现视觉的 Chain-of-Thought，在多模态 LLMs 上的扩展，在基准模型上取得了显著的改进。我们还对这些模型表现良好和困难的情景进行了分类分析，突出了一致性多模态推理所面临的挑战。

Dec, 2023

朝着真正无需零样本的组合视觉推理：以 LLMs 为程序员

通过引入空间和时间抽象例程以及利用少量标记示例自动生成上下文例子，我们提出了一个框架来消除人为构建的上下文例子，从而解决了可视推理中的一些问题并提升了性能。

Jan, 2024

探索视觉语言组合性和识别的光谱

研究了视觉和语言模型领域的复杂关系，特别是在语言理解和细粒度图像与文本对齐方面，探索并评估了现有的 VLMs，在组合性和识别准确性之间的模式和权衡，提出了改进两者能力和基准的策略性努力的必要性。

Jun, 2024