VoCoT: 大型多模态模型中释放基于视觉基础的多步推理
该论文提出了 Visual CoT,一种利用多模态大型语言模型(MLLMs)的推理能力的新型流程,通过结合可解释性认知链条(CoT)推理来处理复杂的视觉输入,并提供可解释的思路。我们收集并引入了 Visual CoT 数据集,该数据集包含 373k 个问题 - 答案对,通过中间边界框突出显示回答问题所必要的关键区域,能够评估在需要特定局部区域识别的场景中的 MLLMs 的性能。大量实验证明了我们的框架的有效性,并为更好的推理策略提供了启示。Visual CoT 数据集、基准和预训练模型可用于促进相关方向的进一步研究。
Mar, 2024
该研究提出了一种将语言与视觉信息相结合的理由生成和答案推断的多模态 - CoT 框架,使得答案推断可以更好地利用基于多模态信息的生成的理由,并取得了比先前最先进的 LLM(GPT-3.5)高 16 个百分点(75.17%-> 91.68%准确度)的性能,在 ScienceQA 基准测试中甚至超过了人类的表现。
Feb, 2023
多模态链式推理(MCoT)需要模型利用文字和视觉多模态知识进行逐步推理,但当前的 MCoT 基准仍存在一些挑战,包括缺乏视觉模态推理、单步视觉模态推理和领域缺失,限制了 MCoT 的发展。我们引入了一个新的基准(M3CoT)来解决上述挑战,推进多领域、多步骤和多模态的 CoT。此外,我们对视觉大型语言模型(VLLMs)进行了全面评估。尽管在先前的 MCoT 基准上取得了优异的结果,但当前的 VLLMs 在 M3CoT 中仍然难以正确推理,与人类表现存在较大差距。据我们所知,我们对 MCoT 的多领域、多步骤和多模态场景迈出了首要的有意义的一步。我们希望 M3CoT 可以成为一个有价值的资源,在多领域、多步骤和多模态的链式思维研究中提供开创性的基础。
May, 2024
我们提出了一种新的多模态链式思考推理方法,通过扩散过程利用潜在空间学习产生与语言思维相吻合的有效图像特征来融合图像特征和文本表示,提高多模态链式思考推理的复杂推理能力,从而为语言模型在多模态推理中提供了更健壮和有效的解决方案。
Dec, 2023
通过结合视觉环境获取和逻辑推理,本论文提出了一种名为 Cantor 的创新的多模态 CoT 框架,利用多模态大语言模型的认知能力解决复杂的视觉推理任务,该框架通过分析图像和问题实现对视觉输入的整合,利用大语言模型的高级认知功能生成更高级别的信息,提高了多模态 CoT 性能。
Apr, 2024
利用链式思维和视觉问答技术,通过评估文本嵌入方法和视觉嵌入方法的有效性,研究如何提高深度学习模型在解决多项选择问题方面的准确性,实验结果显示这些方法在增强推理和问答能力方面具有潜力。
Dec, 2023
通过视觉增强实现 VCoT 方法,利用多模态填充降低序列数据中的逻辑间隙,改善下游任务的表现及对模型的多步推理提供可解释性。在视觉叙事和 WikiHow 摘要数据集上,VCoT 方法通过人类评估超越了思维链基线模型,提供了新的、一致的合成数据增强。
May, 2023
通过整合 CoT 推理、知识图谱和多模态的综合理解,KAM-CoT 提出了一种在多模态任务中应对挑战并提高性能的框架,以更深层次的上下文理解降低幻觉并增强答案质量。
Jan, 2024
使用 T5 预训练模型实现了图形思维推理模型,提高了基于文本推理任务 GSM8K 的性能和面向多模态的推理任务 ScienceQA 的准确率,通过较少的骨干模型参数与基于 700M 参数的 Multimodal-CoT 模型获得相当的结果,探索了非线性思考的建模方法。
May, 2023
使用检索机制动态自动选择基于跨模态相似性的示例,以提升多模态推理中大型语言模型的性能。对各类示例进行分组并分别从不同组中检索示例,以增加示例的多样性。通过一系列实验,我们证明了我们的方法在多模态推理任务中取得了显著的性能改进。
Dec, 2023