DDCoT: 多模式语言模型中的责任区分思维链提示

Oct, 2023

DDCoT: 多模式语言模型中的责任区分思维链提示

DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning in Language Models

Ge Zheng, Bin Yang, Jiajin Tang, Hong-Yu Zhou, Sibei Yang

TL;DRAI 系统的一个长期目标是像人类一样进行复杂的多模态推理。最近，大型语言模型（LLMs）通过利用思维链（CoT）在仅使用语言模态上取得了显著的多步推理进展，然而，将这些进展应用于多模态情境引入了更高的挑战，其中包括但不限于对劳动密集型注释的不切实际需求以及在灵活性、泛化性和可解释性方面的限制。为了在多模态中唤起 CoT 推理，该研究首先对多模态提出的这些挑战进行了深入分析，并提出了两个关键见解：“保持批判性思维” 和 “让每个人发挥各自的作用” 在多模态 CoT 推理中。此外，该研究提出了一种新颖的 DDCoT 提示，通过负空间提示保持临界态度，并通过首先将 LLMs 的推理责任划分为推理和识别，然后将视觉模型的视觉识别能力整合到联合推理过程中来融入多模态推理。DDCoT 生成的基于理性的解释不仅改进了大型和小型语言模型在零样本提示和微调学习中的推理能力，显著超过了最先进的方法，而且还展示出令人印象深刻的泛化性和可解释性。

Abstract

A long-standing goal of ai systems is to perform complex multimodal reasoning like humans. Recently, large language models (LLMs) have mad

ai systems multimodal reasoning large language models chain of thought ddcot prompting

发现论文，激发创造

语言模型中的多模态思维链推理

该研究提出了一种将语言与视觉信息相结合的理由生成和答案推断的多模态 - CoT 框架，使得答案推断可以更好地利用基于多模态信息的生成的理由，并取得了比先前最先进的 LLM（GPT-3.5）高 16 个百分点（75.17％-> 91.68％准确度）的性能，在 ScienceQA 基准测试中甚至超过了人类的表现。

Feb, 2023

视觉 CoT：在多模态语言模型中释放连续思维推理

该论文提出了 Visual CoT，一种利用多模态大型语言模型（MLLMs）的推理能力的新型流程，通过结合可解释性认知链条（CoT）推理来处理复杂的视觉输入，并提供可解释的思路。我们收集并引入了 Visual CoT 数据集，该数据集包含 373k 个问题 - 答案对，通过中间边界框突出显示回答问题所必要的关键区域，能够评估在需要特定局部区域识别的场景中的 MLLMs 的性能。大量实验证明了我们的框架的有效性，并为更好的推理策略提供了启示。Visual CoT 数据集、基准和预训练模型可用于促进相关方向的进一步研究。

Mar, 2024

Meta-CoT：大型语言模型中的混合任务场景中可普遍化的思维链开启

使用混合任务场景中的元推理链 (Meta-CoT) 提示方法，构建来自相应数据池的多样化演示，可同时在十个公共基准推理任务上表现出卓越的性能和优越的泛化能力。

Oct, 2023

多模态命名实体和多模态关系抽取的思维链提示蒸馏

本研究探索了如何通过生成 “思考链” 从大型语言模型中提取出推理能力并综合常识推理能力，进而实现条件提示蒸馏，提高学生模型在 MNER 和 MRE 数据集上的效果。

Jun, 2023

自主链式思维对于面向开放域多跳推理的大型语言模型

在这篇文章中，我们提出了自主启发式链式思考 (SP-CoT) 自动化框架，用于大规模生成高质量的多跳推理数据集并通过上下文学习实现自主启发式推理，实验证明 SP-CoT 在大规模和小规模语言模型上的性能均显著优于前沿方法，并能在中间步骤中召回约 50% 的中间答案。

Oct, 2023

走向理解思路链提示：对重要性的经验研究

本论文研究了 Chain-of-Thought 提示对大型语言模型的多步推理能力的影响，发现即使使用无效的推理步骤，其提示也能达到 80-90% 的性能，并探究了其他理性方面的影响。

Dec, 2022

多模态潜空间学习用于语言模型的思维链推理

我们提出了一种新的多模态链式思考推理方法，通过扩散过程利用潜在空间学习产生与语言思维相吻合的有效图像特征来融合图像特征和文本表示，提高多模态链式思考推理的复杂推理能力，从而为语言模型在多模态推理中提供了更健壮和有效的解决方案。

Dec, 2023

大型语言模型的自动思维联想提示

本论文提出一种基于链式推理的自动提问方法 Auto-CoT，通过采样具有多样性的问题并生成推理链来构建演示，在十项公共基准推理任务中，Auto-CoT 不断匹配或超越需要手动设计演示的 CoT 范例的性能。

Oct, 2022

大型语言模型中的模式感知思维链激励

链式思维提示可以引导语言模型进行复杂的多步推理。我们提出了一种考虑演示模式多样性的提示方法，通过在中间步骤中结合步长和推理过程等模式，有效地缓解由演示引起的偏差问题并实现对不同场景的更好泛化。我们在两个开源 LLM 模型上进行了九个推理基准任务的实验，结果表明我们的方法大大提高了推理性能，并且对错误表现出鲁棒性。代码将公开提供。

Apr, 2024

ChainLM: 通过改进思维连贯性促进大型语言模型的能力

Chain-of-Thought 提示可以增强大型语言模型（LLMs）的推理能力，现有的 CoT 综合方法针对简单推理任务，导致 CoT 提示的质量低且不一致。为了应对这一挑战，我们进行了 CoT 提示的实证研究并引入了 CoTGenius，一个用于自动生成优质 CoT 提示的新框架。我们进一步采用 CoTGenius 创建了一个广泛的 CoT 数据集，并在该数据集上对 Llama 2-Chat 7B 和 13B 模型进行了微调，得到了 ChainLM 模型。为了解决推理步骤中的累积误差问题，我们提出了一种步骤级辩论方法，其中多个辩论者讨论每个推理步骤，得出正确答案。大量实验证明，与现有模型相比，我们的 ChainLM 模型在解决一系列复杂推理问题方面表现出更高的熟练度。此外，我们对 CoTGenius 中的数据类别对模型性能的影响进行了深入分析。我们在此 https URL 上发布了我们的数据集和代码。

Mar, 2024