TextCoT: 提升多模态文本丰富图像理解的局部放大

Apr, 2024

TextCoT: 提升多模态文本丰富图像理解的局部放大

TextCoT: Zoom In for Enhanced Multimodal Text-Rich Image Understanding

Bozhi Luan, Hao Feng, Hong Chen, Yonghui Wang, Wengang Zhou...

TL;DR提出了一种名为 TextCoT 的 Chain-of-Thought 框架，用于理解富文本图像，利用 LMMs 的字幕能力来把握图像的全局背景和细节地区，从而提供准确的问题回答，方法经过了广泛实验验证了其有效性和强大的普适能力。

Abstract

The advent of large multimodal models (lmms) has sparked a surge in research aimed at harnessing their remarkable reasoning abilities. However, for understanding text-rich images, challenges persist in fully leve

large multimodal models textcot text-rich image understanding question-answering lmms

发现论文，激发创造

视觉 CoT：在多模态语言模型中释放连续思维推理

该论文提出了 Visual CoT，一种利用多模态大型语言模型（MLLMs）的推理能力的新型流程，通过结合可解释性认知链条（CoT）推理来处理复杂的视觉输入，并提供可解释的思路。我们收集并引入了 Visual CoT 数据集，该数据集包含 373k 个问题 - 答案对，通过中间边界框突出显示回答问题所必要的关键区域，能够评估在需要特定局部区域识别的场景中的 MLLMs 的性能。大量实验证明了我们的框架的有效性，并为更好的推理策略提供了启示。Visual CoT 数据集、基准和预训练模型可用于促进相关方向的进一步研究。

Mar, 2024

TIE：针对复杂提示和高保真度编辑的文本图像编辑革新

我们提出了一种创新的图像编辑框架，利用多模式大语言模型（LLMs）的强大的思路链条推理和本地化能力来辅助扩散模型生成更加精细的图像。

May, 2024

语言模型中的多模态思维链推理

该研究提出了一种将语言与视觉信息相结合的理由生成和答案推断的多模态 - CoT 框架，使得答案推断可以更好地利用基于多模态信息的生成的理由，并取得了比先前最先进的 LLM（GPT-3.5）高 16 个百分点（75.17％-> 91.68％准确度）的性能，在 ScienceQA 基准测试中甚至超过了人类的表现。

Feb, 2023

CoCoT: 大型多模型多图像输入的对比思维链接引导

当探索人工通用智能（AGI）的发展时，大型多模态模型（LMMs）在处理多个图像输入的信息时面临两个问题：细粒度感知的缺乏和融合多个图像的倾向。我们首先广泛研究了 LMMs 在处理多个输入图像时感知细粒度视觉细节的能力。研究集中在两个方面：首先，图像与图像匹配（评估 LMMs 是否能够有效推理和配对相关图像），其次，多图像与文本匹配（评估 LMMs 是否能够准确捕捉和总结详细的图像信息）。我们对一系列开源和闭源的大型模型进行评估，包括 GPT-4V，Gemini，OpenFlamingo 和 MMICL。为了增强模型性能，我们还基于多输入多模态模型开发了一种对比的思维链（CoCoT）启发方法。该方法要求 LMMs 比较多个图像输入的相似性和差异性，然后根据确定的相似性和差异性指导模型回答关于多图像输入的详细问题。我们的实验结果展示了 CoCoT 在增强大型多模态模型的多图像理解能力方面的熟练度。

Jan, 2024

多模态潜空间学习用于语言模型的思维链推理

我们提出了一种新的多模态链式思考推理方法，通过扩散过程利用潜在空间学习产生与语言思维相吻合的有效图像特征来融合图像特征和文本表示，提高多模态链式思考推理的复杂推理能力，从而为语言模型在多模态推理中提供了更健壮和有效的解决方案。

Dec, 2023

KAM-CoT：知识增强的多模式思维链推理

通过整合 CoT 推理、知识图谱和多模态的综合理解，KAM-CoT 提出了一种在多模态任务中应对挑战并提高性能的框架，以更深层次的上下文理解降低幻觉并增强答案质量。

Jan, 2024

VoCoT: 大型多模态模型中释放基于视觉基础的多步推理

该研究论文提出了 VoCoT，一种适合于大型多模态模型推理的多步骤可视化物体为中心的连贯思维推理框架，通过在 LMMs 中引入 VoCoT，实现了在长期生成过程中跨模态信息的有效连接，并在各种场景中表现出优秀的性能，超过了需要复杂推理的 SOTA 模型，包括 GPT-4V。

May, 2024

多域多步骤多模态思维链的新型基准 M$^3$CoT

多模态链式推理（MCoT）需要模型利用文字和视觉多模态知识进行逐步推理，但当前的 MCoT 基准仍存在一些挑战，包括缺乏视觉模态推理、单步视觉模态推理和领域缺失，限制了 MCoT 的发展。我们引入了一个新的基准（M3CoT）来解决上述挑战，推进多领域、多步骤和多模态的 CoT。此外，我们对视觉大型语言模型（VLLMs）进行了全面评估。尽管在先前的 MCoT 基准上取得了优异的结果，但当前的 VLLMs 在 M3CoT 中仍然难以正确推理，与人类表现存在较大差距。据我们所知，我们对 MCoT 的多领域、多步骤和多模态场景迈出了首要的有意义的一步。我们希望 M3CoT 可以成为一个有价值的资源，在多领域、多步骤和多模态的链式思维研究中提供开创性的基础。

May, 2024

ChatCoT：基于聊天的大型语言模型的工具增强思维链推理

ChatCoT 是一种用于聊天式大语言模型的工具辅助思维链推理框架，大幅提高了在复杂推理任务上的表现。

May, 2023

MM-PhyQA：多模态物理问题回答与多图 CoT 提示

利用现有模型对多步骤物理推理任务进行评估，通过引入多模态元素的高中级别物理问题的新数据集 MM-PhyQA，测试了包括 GPT-4 和 LLaVA 在内的多个大型语言模型的性能，并展示了基于 MI-CoT 提示技术的 LLaVA-1.5 13b 模型在测试集上的最佳结果，具有最高的 71.65% 准确率。

Apr, 2024