实现统一的多模态推理框架

Dec, 2023

Towards a Unified Multimodal Reasoning Framework

Abhinav Arun, Dipendra Singh Mal, Mehul Soni, Tomohiro Sawada

TL;DR利用链式思维和视觉问答技术，通过评估文本嵌入方法和视觉嵌入方法的有效性，研究如何提高深度学习模型在解决多项选择问题方面的准确性，实验结果显示这些方法在增强推理和问答能力方面具有潜力。

Abstract

Recent advancements in deep learning have led to the development of powerful language models (LMs) that excel in various tasks. Despite these achievements, there is still room for improvement, particularly in enhancing reasoning abilities and incorporating multimodal data. This report

deep learning chain-of-thought reasoning visual question answering text embedding visual embedding

发现论文，激发创造

语言模型中的多模态思维链推理

该研究提出了一种将语言与视觉信息相结合的理由生成和答案推断的多模态 - CoT 框架，使得答案推断可以更好地利用基于多模态信息的生成的理由，并取得了比先前最先进的 LLM（GPT-3.5）高 16 个百分点（75.17％-> 91.68％准确度）的性能，在 ScienceQA 基准测试中甚至超过了人类的表现。

Feb, 2023

学会阐述：基于思维链的多模态推理用于科学问答

利用多模态多选问题和对应的讲座和解释构建科学问题回答 (ScienceQA) 基准测试，证明思路链在语言模型中的实用性，并通过在 GPT-3 上实现 18.96% 的 few-shot leap 提高上界；证明与人类类似，从解释中受益，可以借少训练数据实现相同的性能

Sep, 2022

多模态潜空间学习用于语言模型的思维链推理

我们提出了一种新的多模态链式思考推理方法，通过扩散过程利用潜在空间学习产生与语言思维相吻合的有效图像特征来融合图像特征和文本表示，提高多模态链式思考推理的复杂推理能力，从而为语言模型在多模态推理中提供了更健壮和有效的解决方案。

Dec, 2023

视觉 CoT：在多模态语言模型中释放连续思维推理

该论文提出了 Visual CoT，一种利用多模态大型语言模型（MLLMs）的推理能力的新型流程，通过结合可解释性认知链条（CoT）推理来处理复杂的视觉输入，并提供可解释的思路。我们收集并引入了 Visual CoT 数据集，该数据集包含 373k 个问题 - 答案对，通过中间边界框突出显示回答问题所必要的关键区域，能够评估在需要特定局部区域识别的场景中的 MLLMs 的性能。大量实验证明了我们的框架的有效性，并为更好的推理策略提供了启示。Visual CoT 数据集、基准和预训练模型可用于促进相关方向的进一步研究。

Mar, 2024

大型语言模型的检索增强多模态思维链推理

使用检索机制动态自动选择基于跨模态相似性的示例，以提升多模态推理中大型语言模型的性能。对各类示例进行分组并分别从不同组中检索示例，以增加示例的多样性。通过一系列实验，我们证明了我们的方法在多模态推理任务中取得了显著的性能改进。

Dec, 2023

视觉思维链：多模态填充填补逻辑间隙

通过视觉增强实现 VCoT 方法，利用多模态填充降低序列数据中的逻辑间隙，改善下游任务的表现及对模型的多步推理提供可解释性。在视觉叙事和 WikiHow 摘要数据集上，VCoT 方法通过人类评估超越了思维链基线模型，提供了新的、一致的合成数据增强。

May, 2023

推进大型多模型：明确的推理链与视觉问题生成

本文介绍了一种通过图像内容和文字指令进行显式推理的新方法，采用大型多模态模型（LMM），并引入了一个能够提问以获取必要知识以增强推理过程鲁棒性和可解释性的系统。实验结果表明我们的方法能够在面对模糊的视觉输入时，朝着更具鲁棒性、准确性和可解释性的 LMM 迈进。

Jan, 2024

KAM-CoT：知识增强的多模式思维链推理

通过整合 CoT 推理、知识图谱和多模态的综合理解，KAM-CoT 提出了一种在多模态任务中应对挑战并提高性能的框架，以更深层次的上下文理解降低幻觉并增强答案质量。

Jan, 2024

多模态理性混合：视觉问题回答的多模式推理混合

提出了一种名为 “Mixture of Rationales (MoR)” 的新型多模态推理方法，通过混合多个推理证据来解决零样本视觉问答问题，并结合 “Vision-and-Language Pre-trained Models (VLPM)” 使用冻结模型来动态生成、检索和融合多模态想法，在 NLVR2 和 OKVQA 两个具有挑战性的 VQA 数据集上取得了较大的准确率提升。

Jun, 2024

知识密集型多步问题的交错检索与思维链推理

提出了 IRCoT 方法，在多步 QA 过程中使用检索和 CoT 交替进行，同时使用检索的结果来改善 CoT。在 HotpotQA、2WikiMultihopQA、MuSiQue 和 IIRC 四个数据集上，使用 IRCoT 方法取得了显著的检索和 QA 性能改进，即便是在小型模型 T5-Flan-large（0.7B）上也能奏效。

Dec, 2022