语言模型中的多模态思维链推理

Feb, 2023

Multimodal Chain-of-Thought Reasoning in Language Models

Zhuosheng Zhang, Aston Zhang, Mu Li, Hai Zhao, George Karypis...

TL;DR该研究提出了一种将语言与视觉信息相结合的理由生成和答案推断的多模态 - CoT 框架，使得答案推断可以更好地利用基于多模态信息的生成的理由，并取得了比先前最先进的 LLM（GPT-3.5）高 16 个百分点（75.17％-> 91.68％准确度）的性能，在 ScienceQA 基准测试中甚至超过了人类的表现。

Abstract

large language models (LLMs) have shown impressive performance on complex reasoning by leveraging chain-of-thought (CoT) prompting to generate intermediate reasoning chains as the rationale to infer the answer. H

large language models multimodal-cot reasoning chains language and vision modalities scienceqa benchmark

发现论文，激发创造

多模态潜空间学习用于语言模型的思维链推理

我们提出了一种新的多模态链式思考推理方法，通过扩散过程利用潜在空间学习产生与语言思维相吻合的有效图像特征来融合图像特征和文本表示，提高多模态链式思考推理的复杂推理能力，从而为语言模型在多模态推理中提供了更健壮和有效的解决方案。

Dec, 2023

视觉 CoT：在多模态语言模型中释放连续思维推理

该论文提出了 Visual CoT，一种利用多模态大型语言模型（MLLMs）的推理能力的新型流程，通过结合可解释性认知链条（CoT）推理来处理复杂的视觉输入，并提供可解释的思路。我们收集并引入了 Visual CoT 数据集，该数据集包含 373k 个问题 - 答案对，通过中间边界框突出显示回答问题所必要的关键区域，能够评估在需要特定局部区域识别的场景中的 MLLMs 的性能。大量实验证明了我们的框架的有效性，并为更好的推理策略提供了启示。Visual CoT 数据集、基准和预训练模型可用于促进相关方向的进一步研究。

Mar, 2024

大型语言模型的检索增强多模态思维链推理

使用检索机制动态自动选择基于跨模态相似性的示例，以提升多模态推理中大型语言模型的性能。对各类示例进行分组并分别从不同组中检索示例，以增加示例的多样性。通过一系列实验，我们证明了我们的方法在多模态推理任务中取得了显著的性能改进。

Dec, 2023

DDCoT: 多模式语言模型中的责任区分思维链提示

AI 系统的一个长期目标是像人类一样进行复杂的多模态推理。最近，大型语言模型（LLMs）通过利用思维链（CoT）在仅使用语言模态上取得了显著的多步推理进展，然而，将这些进展应用于多模态情境引入了更高的挑战，其中包括但不限于对劳动密集型注释的不切实际需求以及在灵活性、泛化性和可解释性方面的限制。为了在多模态中唤起 CoT 推理，该研究首先对多模态提出的这些挑战进行了深入分析，并提出了两个关键见解：“保持批判性思维” 和 “让每个人发挥各自的作用” 在多模态 CoT 推理中。此外，该研究提出了一种新颖的 DDCoT 提示，通过负空间提示保持临界态度，并通过首先将 LLMs 的推理责任划分为推理和识别，然后将视觉模型的视觉识别能力整合到联合推理过程中来融入多模态推理。DDCoT 生成的基于理性的解释不仅改进了大型和小型语言模型在零样本提示和微调学习中的推理能力，显著超过了最先进的方法，而且还展示出令人印象深刻的泛化性和可解释性。

Oct, 2023

大型语言模型中的思维过程图推理：超越思维链的有效方法

使用 T5 预训练模型实现了图形思维推理模型，提高了基于文本推理任务 GSM8K 的性能和面向多模态的推理任务 ScienceQA 的准确率，通过较少的骨干模型参数与基于 700M 参数的 Multimodal-CoT 模型获得相当的结果，探索了非线性思考的建模方法。

May, 2023

实现统一的多模态推理框架

利用链式思维和视觉问答技术，通过评估文本嵌入方法和视觉嵌入方法的有效性，研究如何提高深度学习模型在解决多项选择问题方面的准确性，实验结果显示这些方法在增强推理和问答能力方面具有潜力。

Dec, 2023

KAM-CoT：知识增强的多模式思维链推理

通过整合 CoT 推理、知识图谱和多模态的综合理解，KAM-CoT 提出了一种在多模态任务中应对挑战并提高性能的框架，以更深层次的上下文理解降低幻觉并增强答案质量。

Jan, 2024

通过思维树增强跨语言多步推理

本研究通过一种自洽的跨语言提示机制，提出了一种跨语言多步推理方法，可以在不同语言中实现多步推理路径，从而达到解决复杂推理任务的目的，并在实验评估中表现出比现有提示方法更优的性能。

Nov, 2023

学会阐述：基于思维链的多模态推理用于科学问答

利用多模态多选问题和对应的讲座和解释构建科学问题回答 (ScienceQA) 基准测试，证明思路链在语言模型中的实用性，并通过在 GPT-3 上实现 18.96% 的 few-shot leap 提高上界；证明与人类类似，从解释中受益，可以借少训练数据实现相同的性能

Sep, 2022

忠实的串联思考推理

提出 Faithful CoT 框架以实现准确性和真实性的协同作用，通过将推理任务分解为翻译和问题求解两个阶段，使用 LM 和确定性求解器分别实现。在 10 个推理数据集上进行比较并展示 Faithful CoT 框架的优越性。

Jan, 2023