视觉思维链:多模态填充填补逻辑间隙
该论文提出了 Visual CoT,一种利用多模态大型语言模型(MLLMs)的推理能力的新型流程,通过结合可解释性认知链条(CoT)推理来处理复杂的视觉输入,并提供可解释的思路。我们收集并引入了 Visual CoT 数据集,该数据集包含 373k 个问题 - 答案对,通过中间边界框突出显示回答问题所必要的关键区域,能够评估在需要特定局部区域识别的场景中的 MLLMs 的性能。大量实验证明了我们的框架的有效性,并为更好的推理策略提供了启示。Visual CoT 数据集、基准和预训练模型可用于促进相关方向的进一步研究。
Mar, 2024
该研究提出了一种将语言与视觉信息相结合的理由生成和答案推断的多模态 - CoT 框架,使得答案推断可以更好地利用基于多模态信息的生成的理由,并取得了比先前最先进的 LLM(GPT-3.5)高 16 个百分点(75.17%-> 91.68%准确度)的性能,在 ScienceQA 基准测试中甚至超过了人类的表现。
Feb, 2023
利用链式思维和视觉问答技术,通过评估文本嵌入方法和视觉嵌入方法的有效性,研究如何提高深度学习模型在解决多项选择问题方面的准确性,实验结果显示这些方法在增强推理和问答能力方面具有潜力。
Dec, 2023
我们提出了一种新的多模态链式思考推理方法,通过扩散过程利用潜在空间学习产生与语言思维相吻合的有效图像特征来融合图像特征和文本表示,提高多模态链式思考推理的复杂推理能力,从而为语言模型在多模态推理中提供了更健壮和有效的解决方案。
Dec, 2023
利用逻辑链思维 (LogiCoT) 的神经符号框架,大规模语言模型提供了更强的零编码链式思维推理能力。实验证明了逻辑增强的推理范式在算术、常识、符号、因果推断和社会问题等多个领域的语言任务中的有效性。
Sep, 2023
白板思维引导是一个简单的方法,可以解锁多模态大型语言模型在视觉推理方面的能力,通过提供 “白板” 以图像形式呈现推理步骤,然后将这些图像返回给模型进行进一步处理。该方法在涉及视觉和空间推理的四个自然语言任务方面展现了最先进的结果,同时解决了 GPT-4o 使用思维链的多个失败场景,并在这些相同场景中实现了 92% 的准确率。
Jun, 2024
通过使用连锁图像方法,将复杂的语言推理问题转化为简单的模式识别,并引入一种符号化的多模态大型语言模型,该模型可以根据语言指令生成图像并接受文本和图像作为输入,实验结果表明连锁图像方法显著提高了在几何学、国际象棋和常识任务上的性能。
Nov, 2023
为了提高视频推理的能力和降低处理数百或数千帧的计算复杂度,我们提出了 VideoCOT 的新研究方向,旨在利用视觉语言模型的多模式生成能力对视频关键帧进行增强。我们引入了 VIP 数据集,其中包含各种现实生活视频和场景描述,以及两个新的视频推理任务:视频填充和场景预测,评估了各种视觉语言模型在 VIP 上的表现,证明了利用视觉语言模型和 LLM 提高视频链推理的潜力。
May, 2023
近期在 Chain-of-Thought (CoT) 和相关基于理性的研究中,显着提升了大规模语言模型(LLM)在复杂推理任务中的性能。随着多模态大规模语言模型(MLLM)的发展,增强其解决复杂多模态推理问题的能力是至关重要的。然而,将多模态理性融入 CoT 还没有得到彻底的研究。本文提出了 Image-of-Thought(IoT)提示方法,帮助 MLLM 逐步提取视觉理性。具体而言,IoT 提示可以根据输入图像和问题自动设计关键的视觉信息提取操作。视觉信息的每个步骤都可以确定支持复杂视觉推理问题答案的特定视觉理性。除了文本 CoT,IoT 同时利用视觉和文本合理有助于 MLLM 理解复杂多模态信息。IoT 提示在不同的 MLLM 中改善了各种视觉理解任务的零 - shot 视觉推理性能。此外,IoT 提示生成的逐步视觉特征解释阐明了视觉推理过程,有助于分析大规模多模态模型的认知过程。
May, 2024
通过 LLM-Human-in-the-Loop 流程和 CURE 基准,我们评估了现有的 VLMs,并发现即使是表现最佳的模型也无法展示出强大的视觉推理能力和一致性,表明需要大量努力使 VLMs 能够像人类一样系统而一致地进行视觉推理。作为初步步骤,我们提出了一个两阶段训练框架,旨在提高 VLMs 的推理性能和一致性。第一阶段涉及使用由 LLMs 自动生成的逐步推理样本对 VLMs 进行监督微调。在第二阶段,我们进一步通过结合 LLMs 提供的反馈来增强训练过程,以产生高度一致和可靠的推理链。我们在推理性能和一致性方面经验上突出了我们框架的有效性。
Sep, 2023