视觉思维链：多模态填充填补逻辑间隙

May, 2023

视觉思维链：多模态填充填补逻辑间隙

Visual Chain of Thought: Bridging Logical Gaps with Multimodal Infillings

Daniel Rose, Vaishnavi Himakunthala, Andy Ouyang, Ryan He, Alex Mei...

TL;DR通过视觉增强实现 VCoT 方法，利用多模态填充降低序列数据中的逻辑间隙，改善下游任务的表现及对模型的多步推理提供可解释性。在视觉叙事和 WikiHow 摘要数据集上，VCoT 方法通过人类评估超越了思维链基线模型，提供了新的、一致的合成数据增强。

Abstract

Recent advances in large language models elicit reasoning in a chain of thought that allows models to decompose problems in a human-like fashion. Though this paradigm improves multi-step reasoning ability in language models, it is limited by being unimodal and applied mainly to questio

large language models visual augmentation vcot method multimodal infillings temporal reasoning

发现论文，激发创造

视觉 CoT：在多模态语言模型中释放连续思维推理

该论文提出了 Visual CoT，一种利用多模态大型语言模型（MLLMs）的推理能力的新型流程，通过结合可解释性认知链条（CoT）推理来处理复杂的视觉输入，并提供可解释的思路。我们收集并引入了 Visual CoT 数据集，该数据集包含 373k 个问题 - 答案对，通过中间边界框突出显示回答问题所必要的关键区域，能够评估在需要特定局部区域识别的场景中的 MLLMs 的性能。大量实验证明了我们的框架的有效性，并为更好的推理策略提供了启示。Visual CoT 数据集、基准和预训练模型可用于促进相关方向的进一步研究。

Mar, 2024

语言模型中的多模态思维链推理

该研究提出了一种将语言与视觉信息相结合的理由生成和答案推断的多模态 - CoT 框架，使得答案推断可以更好地利用基于多模态信息的生成的理由，并取得了比先前最先进的 LLM（GPT-3.5）高 16 个百分点（75.17％-> 91.68％准确度）的性能，在 ScienceQA 基准测试中甚至超过了人类的表现。

Feb, 2023

实现统一的多模态推理框架

利用链式思维和视觉问答技术，通过评估文本嵌入方法和视觉嵌入方法的有效性，研究如何提高深度学习模型在解决多项选择问题方面的准确性，实验结果显示这些方法在增强推理和问答能力方面具有潜力。

Dec, 2023

多模态潜空间学习用于语言模型的思维链推理

我们提出了一种新的多模态链式思考推理方法，通过扩散过程利用潜在空间学习产生与语言思维相吻合的有效图像特征来融合图像特征和文本表示，提高多模态链式思考推理的复杂推理能力，从而为语言模型在多模态推理中提供了更健壮和有效的解决方案。

Dec, 2023

通过逻辑增强大型语言模型中的零射连续推理

利用逻辑链思维 (LogiCoT) 的神经符号框架，大规模语言模型提供了更强的零编码链式思维推理能力。实验证明了逻辑增强的推理范式在算术、常识、符号、因果推断和社会问题等多个领域的语言任务中的有效性。

Sep, 2023

思考跨模态的思维步骤白板

白板思维引导是一个简单的方法，可以解锁多模态大型语言模型在视觉推理方面的能力，通过提供 “白板” 以图像形式呈现推理步骤，然后将这些图像返回给模型进行进一步处理。该方法在涉及视觉和空间推理的四个自然语言任务方面展现了最先进的结果，同时解决了 GPT-4o 使用思维链的多个失败场景，并在这些相同场景中实现了 92% 的准确率。

Jun, 2024

直观推理的图像链

通过使用连锁图像方法，将复杂的语言推理问题转化为简单的模式识别，并引入一种符号化的多模态大型语言模型，该模型可以根据语言指令生成图像并接受文本和图像作为输入，实验结果表明连锁图像方法显著提高了在几何学、国际象棋和常识任务上的性能。

Nov, 2023

逐帧思考：使用视频填充和预测评估视频思维链

为了提高视频推理的能力和降低处理数百或数千帧的计算复杂度，我们提出了 VideoCOT 的新研究方向，旨在利用视觉语言模型的多模式生成能力对视频关键帧进行增强。我们引入了 VIP 数据集，其中包含各种现实生活视频和场景描述，以及两个新的视频推理任务：视频填充和场景预测，评估了各种视觉语言模型在 VIP 上的表现，证明了利用视觉语言模型和 LLM 提高视频链推理的潜力。

May, 2023

多模态大型语言模型中的图像思考激励对于视觉推理优化的影响

近期在 Chain-of-Thought (CoT) 和相关基于理性的研究中，显着提升了大规模语言模型（LLM）在复杂推理任务中的性能。随着多模态大规模语言模型（MLLM）的发展，增强其解决复杂多模态推理问题的能力是至关重要的。然而，将多模态理性融入 CoT 还没有得到彻底的研究。本文提出了 Image-of-Thought（IoT）提示方法，帮助 MLLM 逐步提取视觉理性。具体而言，IoT 提示可以根据输入图像和问题自动设计关键的视觉信息提取操作。视觉信息的每个步骤都可以确定支持复杂视觉推理问题答案的特定视觉理性。除了文本 CoT，IoT 同时利用视觉和文本合理有助于 MLLM 理解复杂多模态信息。IoT 提示在不同的 MLLM 中改善了各种视觉理解任务的零 - shot 视觉推理性能。此外，IoT 提示生成的逐步视觉特征解释阐明了视觉推理过程，有助于分析大规模多模态模型的认知过程。

May, 2024

测量和改进视觉 - 语言模型的思维链推理

通过 LLM-Human-in-the-Loop 流程和 CURE 基准，我们评估了现有的 VLMs，并发现即使是表现最佳的模型也无法展示出强大的视觉推理能力和一致性，表明需要大量努力使 VLMs 能够像人类一样系统而一致地进行视觉推理。作为初步步骤，我们提出了一个两阶段训练框架，旨在提高 VLMs 的推理性能和一致性。第一阶段涉及使用由 LLMs 自动生成的逐步推理样本对 VLMs 进行监督微调。在第二阶段，我们进一步通过结合 LLMs 提供的反馈来增强训练过程，以产生高度一致和可靠的推理链。我们在推理性能和一致性方面经验上突出了我们框架的有效性。

Sep, 2023