停止推理!当多模态延续思维推理遇到对抗性图像
该研究提出了一种将语言与视觉信息相结合的理由生成和答案推断的多模态 - CoT 框架,使得答案推断可以更好地利用基于多模态信息的生成的理由,并取得了比先前最先进的 LLM(GPT-3.5)高 16 个百分点(75.17%-> 91.68%准确度)的性能,在 ScienceQA 基准测试中甚至超过了人类的表现。
Feb, 2023
该论文提出了 Visual CoT,一种利用多模态大型语言模型(MLLMs)的推理能力的新型流程,通过结合可解释性认知链条(CoT)推理来处理复杂的视觉输入,并提供可解释的思路。我们收集并引入了 Visual CoT 数据集,该数据集包含 373k 个问题 - 答案对,通过中间边界框突出显示回答问题所必要的关键区域,能够评估在需要特定局部区域识别的场景中的 MLLMs 的性能。大量实验证明了我们的框架的有效性,并为更好的推理策略提供了启示。Visual CoT 数据集、基准和预训练模型可用于促进相关方向的进一步研究。
Mar, 2024
我们提出了一种新的多模态链式思考推理方法,通过扩散过程利用潜在空间学习产生与语言思维相吻合的有效图像特征来融合图像特征和文本表示,提高多模态链式思考推理的复杂推理能力,从而为语言模型在多模态推理中提供了更健壮和有效的解决方案。
Dec, 2023
通过结合视觉环境获取和逻辑推理,本论文提出了一种名为 Cantor 的创新的多模态 CoT 框架,利用多模态大语言模型的认知能力解决复杂的视觉推理任务,该框架通过分析图像和问题实现对视觉输入的整合,利用大语言模型的高级认知功能生成更高级别的信息,提高了多模态 CoT 性能。
Apr, 2024
AI 系统的一个长期目标是像人类一样进行复杂的多模态推理。最近,大型语言模型(LLMs)通过利用思维链(CoT)在仅使用语言模态上取得了显著的多步推理进展,然而,将这些进展应用于多模态情境引入了更高的挑战,其中包括但不限于对劳动密集型注释的不切实际需求以及在灵活性、泛化性和可解释性方面的限制。为了在多模态中唤起 CoT 推理,该研究首先对多模态提出的这些挑战进行了深入分析,并提出了两个关键见解:“保持批判性思维” 和 “让每个人发挥各自的作用” 在多模态 CoT 推理中。此外,该研究提出了一种新颖的 DDCoT 提示,通过负空间提示保持临界态度,并通过首先将 LLMs 的推理责任划分为推理和识别,然后将视觉模型的视觉识别能力整合到联合推理过程中来融入多模态推理。DDCoT 生成的基于理性的解释不仅改进了大型和小型语言模型在零样本提示和微调学习中的推理能力,显著超过了最先进的方法,而且还展示出令人印象深刻的泛化性和可解释性。
Oct, 2023
使用检索机制动态自动选择基于跨模态相似性的示例,以提升多模态推理中大型语言模型的性能。对各类示例进行分组并分别从不同组中检索示例,以增加示例的多样性。通过一系列实验,我们证明了我们的方法在多模态推理任务中取得了显著的性能改进。
Dec, 2023
通过对大型语言模型的内部机制进行机械性探索,我们发现大型语言模型在连续思考生成上部署多个并行路径,产生了顺序答案,并观察到模型中的功能分层差异,这是对连续思考推理进行机械性研究的首次尝试。
Feb, 2024
现代语言模型的性能已通过思维链推理得到改进,思维链推理扩展了语言模型的计算能力,但也引入了类别错误,为此我们在概率模型中形式化思维链推理,并通过对序列生成模型的表示能力进行研究,证明它们可以表示与概率图灵机相同的字符串分布。
Jun, 2024
近期在 Chain-of-Thought (CoT) 和相关基于理性的研究中,显着提升了大规模语言模型(LLM)在复杂推理任务中的性能。随着多模态大规模语言模型(MLLM)的发展,增强其解决复杂多模态推理问题的能力是至关重要的。然而,将多模态理性融入 CoT 还没有得到彻底的研究。本文提出了 Image-of-Thought(IoT)提示方法,帮助 MLLM 逐步提取视觉理性。具体而言,IoT 提示可以根据输入图像和问题自动设计关键的视觉信息提取操作。视觉信息的每个步骤都可以确定支持复杂视觉推理问题答案的特定视觉理性。除了文本 CoT,IoT 同时利用视觉和文本合理有助于 MLLM 理解复杂多模态信息。IoT 提示在不同的 MLLM 中改善了各种视觉理解任务的零 - shot 视觉推理性能。此外,IoT 提示生成的逐步视觉特征解释阐明了视觉推理过程,有助于分析大规模多模态模型的认知过程。
May, 2024
利用链式思维和视觉问答技术,通过评估文本嵌入方法和视觉嵌入方法的有效性,研究如何提高深度学习模型在解决多项选择问题方面的准确性,实验结果显示这些方法在增强推理和问答能力方面具有潜力。
Dec, 2023