多模态大型语言模型中的图像思考激励对于视觉推理优化的影响

May, 2024

多模态大型语言模型中的图像思考激励对于视觉推理优化的影响

Image-of-Thought Prompting for Visual Reasoning Refinement in Multimodal Large Language Models

Qiji Zhou, Ruochen Zhou, Zike Hu, Panzhong Lu, Siyang Gao...

TL;DR近期在 Chain-of-Thought (CoT) 和相关基于理性的研究中，显着提升了大规模语言模型（LLM）在复杂推理任务中的性能。随着多模态大规模语言模型（MLLM）的发展，增强其解决复杂多模态推理问题的能力是至关重要的。然而，将多模态理性融入 CoT 还没有得到彻底的研究。本文提出了 Image-of-Thought（IoT）提示方法，帮助 MLLM 逐步提取视觉理性。具体而言，IoT 提示可以根据输入图像和问题自动设计关键的视觉信息提取操作。视觉信息的每个步骤都可以确定支持复杂视觉推理问题答案的特定视觉理性。除了文本 CoT，IoT 同时利用视觉和文本合理有助于 MLLM 理解复杂多模态信息。IoT 提示在不同的 MLLM 中改善了各种视觉理解任务的零 - shot 视觉推理性能。此外，IoT 提示生成的逐步视觉特征解释阐明了视觉推理过程，有助于分析大规模多模态模型的认知过程。

Abstract

Recent advancements in chain-of-thought (CoT) and related rationale-based works have significantly improved the performance of large language models (LLMs) in complex reasoning tasks. With the evolution of Multim

chain-of-thought large language models multimodal large language models image-of-thought visual reasoning

发现论文，激发创造

语言模型中的多模态思维链推理

该研究提出了一种将语言与视觉信息相结合的理由生成和答案推断的多模态 - CoT 框架，使得答案推断可以更好地利用基于多模态信息的生成的理由，并取得了比先前最先进的 LLM（GPT-3.5）高 16 个百分点（75.17％-> 91.68％准确度）的性能，在 ScienceQA 基准测试中甚至超过了人类的表现。

Feb, 2023

DDCoT: 多模式语言模型中的责任区分思维链提示

AI 系统的一个长期目标是像人类一样进行复杂的多模态推理。最近，大型语言模型（LLMs）通过利用思维链（CoT）在仅使用语言模态上取得了显著的多步推理进展，然而，将这些进展应用于多模态情境引入了更高的挑战，其中包括但不限于对劳动密集型注释的不切实际需求以及在灵活性、泛化性和可解释性方面的限制。为了在多模态中唤起 CoT 推理，该研究首先对多模态提出的这些挑战进行了深入分析，并提出了两个关键见解：“保持批判性思维” 和 “让每个人发挥各自的作用” 在多模态 CoT 推理中。此外，该研究提出了一种新颖的 DDCoT 提示，通过负空间提示保持临界态度，并通过首先将 LLMs 的推理责任划分为推理和识别，然后将视觉模型的视觉识别能力整合到联合推理过程中来融入多模态推理。DDCoT 生成的基于理性的解释不仅改进了大型和小型语言模型在零样本提示和微调学习中的推理能力，显著超过了最先进的方法，而且还展示出令人印象深刻的泛化性和可解释性。

Oct, 2023

CoCoT: 大型多模型多图像输入的对比思维链接引导

当探索人工通用智能（AGI）的发展时，大型多模态模型（LMMs）在处理多个图像输入的信息时面临两个问题：细粒度感知的缺乏和融合多个图像的倾向。我们首先广泛研究了 LMMs 在处理多个输入图像时感知细粒度视觉细节的能力。研究集中在两个方面：首先，图像与图像匹配（评估 LMMs 是否能够有效推理和配对相关图像），其次，多图像与文本匹配（评估 LMMs 是否能够准确捕捉和总结详细的图像信息）。我们对一系列开源和闭源的大型模型进行评估，包括 GPT-4V，Gemini，OpenFlamingo 和 MMICL。为了增强模型性能，我们还基于多输入多模态模型开发了一种对比的思维链（CoCoT）启发方法。该方法要求 LMMs 比较多个图像输入的相似性和差异性，然后根据确定的相似性和差异性指导模型回答关于多图像输入的详细问题。我们的实验结果展示了 CoCoT 在增强大型多模态模型的多图像理解能力方面的熟练度。

Jan, 2024

视觉 CoT：在多模态语言模型中释放连续思维推理

该论文提出了 Visual CoT，一种利用多模态大型语言模型（MLLMs）的推理能力的新型流程，通过结合可解释性认知链条（CoT）推理来处理复杂的视觉输入，并提供可解释的思路。我们收集并引入了 Visual CoT 数据集，该数据集包含 373k 个问题 - 答案对，通过中间边界框突出显示回答问题所必要的关键区域，能够评估在需要特定局部区域识别的场景中的 MLLMs 的性能。大量实验证明了我们的框架的有效性，并为更好的推理策略提供了启示。Visual CoT 数据集、基准和预训练模型可用于促进相关方向的进一步研究。

Mar, 2024

直观推理的图像链

通过使用连锁图像方法，将复杂的语言推理问题转化为简单的模式识别，并引入一种符号化的多模态大型语言模型，该模型可以根据语言指令生成图像并接受文本和图像作为输入，实验结果表明连锁图像方法显著提高了在几何学、国际象棋和常识任务上的性能。

Nov, 2023

多模态潜空间学习用于语言模型的思维链推理

我们提出了一种新的多模态链式思考推理方法，通过扩散过程利用潜在空间学习产生与语言思维相吻合的有效图像特征来融合图像特征和文本表示，提高多模态链式思考推理的复杂推理能力，从而为语言模型在多模态推理中提供了更健壮和有效的解决方案。

Dec, 2023

视觉思维链：多模态填充填补逻辑间隙

通过视觉增强实现 VCoT 方法，利用多模态填充降低序列数据中的逻辑间隙，改善下游任务的表现及对模型的多步推理提供可解释性。在视觉叙事和 WikiHow 摘要数据集上，VCoT 方法通过人类评估超越了思维链基线模型，提供了新的、一致的合成数据增强。

May, 2023

TIE：针对复杂提示和高保真度编辑的文本图像编辑革新

我们提出了一种创新的图像编辑框架，利用多模式大语言模型（LLMs）的强大的思路链条推理和本地化能力来辅助扩散模型生成更加精细的图像。

May, 2024

Cantor: MLLM 的多模态思维链激发

通过结合视觉环境获取和逻辑推理，本论文提出了一种名为 Cantor 的创新的多模态 CoT 框架，利用多模态大语言模型的认知能力解决复杂的视觉推理任务，该框架通过分析图像和问题实现对视觉输入的整合，利用大语言模型的高级认知功能生成更高级别的信息，提高了多模态 CoT 性能。

Apr, 2024

大型语言模型中多跳问答的图引导推理

通过引入图引导的 CoT 提示方法，以问题 / 理由图为基础的图引导推理方法在多步骤推理中表现出优越性能。

Nov, 2023