Meta-CoT:大型语言模型中的混合任务场景中可普遍化的思维链开启
本论文提出一种基于链式推理的自动提问方法 Auto-CoT,通过采样具有多样性的问题并生成推理链来构建演示,在十项公共基准推理任务中,Auto-CoT 不断匹配或超越需要手动设计演示的 CoT 范例的性能。
Oct, 2022
链式思维提示可以引导语言模型进行复杂的多步推理。我们提出了一种考虑演示模式多样性的提示方法,通过在中间步骤中结合步长和推理过程等模式,有效地缓解由演示引起的偏差问题并实现对不同场景的更好泛化。我们在两个开源 LLM 模型上进行了九个推理基准任务的实验,结果表明我们的方法大大提高了推理性能,并且对错误表现出鲁棒性。代码将公开提供。
Apr, 2024
通过使用自动探索的 CoT prompt 对多个 LLMs 进行无监督语言生成,我们发现将该 prompt 应用于最新的 GPT-4 模型是最优的。
May, 2023
Chain-of-Thought 提示可以增强大型语言模型(LLMs)的推理能力,现有的 CoT 综合方法针对简单推理任务,导致 CoT 提示的质量低且不一致。为了应对这一挑战,我们进行了 CoT 提示的实证研究并引入了 CoTGenius,一个用于自动生成优质 CoT 提示的新框架。我们进一步采用 CoTGenius 创建了一个广泛的 CoT 数据集,并在该数据集上对 Llama 2-Chat 7B 和 13B 模型进行了微调,得到了 ChainLM 模型。为了解决推理步骤中的累积误差问题,我们提出了一种步骤级辩论方法,其中多个辩论者讨论每个推理步骤,得出正确答案。大量实验证明,与现有模型相比,我们的 ChainLM 模型在解决一系列复杂推理问题方面表现出更高的熟练度。此外,我们对 CoTGenius 中的数据类别对模型性能的影响进行了深入分析。我们在此 https URL 上发布了我们的数据集和代码。
Mar, 2024
本论文研究了 Chain-of-Thought 提示对大型语言模型的多步推理能力的影响,发现即使使用无效的推理步骤,其提示也能达到 80-90% 的性能,并探究了其他理性方面的影响。
Dec, 2022
通过使用迭代的引导选择,我们介绍了迭代链式思考(Iter-CoT)方法,该方法可以使大型语言模型(LLM)自主纠正错误,同时选择具有适度难度的挑战性问题作为样本,从而增强 LLM 对于不同难度的推理任务的泛化能力。实验结果表明 Iter-CoT 方法在 11 个数据集上展现出卓越的性能表现。
Apr, 2023
本文提出了一种新的方法 Active-Prompt,通过任务特定的示例提示来适应 LLMs 的不同任务,通过从特定的查询池中选择最不确定的问题进行注释来确定哪些问题是最重要和有帮助的。经验结果表明了我们提出的方法的优越性,取得了八项复杂推理任务的最新成果。
Feb, 2023
AI 系统的一个长期目标是像人类一样进行复杂的多模态推理。最近,大型语言模型(LLMs)通过利用思维链(CoT)在仅使用语言模态上取得了显著的多步推理进展,然而,将这些进展应用于多模态情境引入了更高的挑战,其中包括但不限于对劳动密集型注释的不切实际需求以及在灵活性、泛化性和可解释性方面的限制。为了在多模态中唤起 CoT 推理,该研究首先对多模态提出的这些挑战进行了深入分析,并提出了两个关键见解:“保持批判性思维” 和 “让每个人发挥各自的作用” 在多模态 CoT 推理中。此外,该研究提出了一种新颖的 DDCoT 提示,通过负空间提示保持临界态度,并通过首先将 LLMs 的推理责任划分为推理和识别,然后将视觉模型的视觉识别能力整合到联合推理过程中来融入多模态推理。DDCoT 生成的基于理性的解释不仅改进了大型和小型语言模型在零样本提示和微调学习中的推理能力,显著超过了最先进的方法,而且还展示出令人印象深刻的泛化性和可解释性。
Oct, 2023
该研究提出了一种将语言与视觉信息相结合的理由生成和答案推断的多模态 - CoT 框架,使得答案推断可以更好地利用基于多模态信息的生成的理由,并取得了比先前最先进的 LLM(GPT-3.5)高 16 个百分点(75.17%-> 91.68%准确度)的性能,在 ScienceQA 基准测试中甚至超过了人类的表现。
Feb, 2023
通过对 Chain-of-Thought(CoT)提示方式的研究,我们发现 CoT 的正确操作和数值是 GPT-3 在各种任务中获得准确答案的关键,而错误操作会对性能产生负面影响,这项研究加深了我们对 CoT 提示方式的理解,也提出了有关大语言模型在上下文中学习推理能力的新问题。
Sep, 2023