超越思维链:LLM的链式X范式综述
本论文研究了Chain-of-Thought提示对大型语言模型的多步推理能力的影响,发现即使使用无效的推理步骤,其提示也能达到80-90%的性能,并探究了其他理性方面的影响。
Dec, 2022
通过使用自动探索的 CoT prompt 对多个 LLMs 进行无监督语言生成,我们发现将该 prompt 应用于最新的 GPT-4 模型是最优的。
May, 2023
认知过程中的链式思维推理引起了人工智能和自然语言处理领域的广泛关注,然而目前还缺乏一个全面的调查。为此,我们首次全面调查了这一研究领域,按照方法分类系统地组织了当前的研究,包括思维推理方式、思维推理结构变体和增强思维推理。此外,我们还描述了思维推理的前沿应用,包括规划、工具使用和提炼。我们还讨论了面临的挑战和一些未来方向,如忠实度、多模式和理论。我们希望这项调查能成为链式思维推理领域研究者寻求创新的宝贵资源。
Sep, 2023
我们对Chain-of-Thought (CoT)的关键因素进行了系统和全面的分析,介绍了如何在不同应用中更好地应用CoT提示,并提出了一些建议和未来的研究方向。
Oct, 2023
本文研究了大型语言模型(LLMs)的能力,特别关注于推进链式思维提示的理论理解。我们探究了如何有效诱导LLMs生成连贯的思维链条。为实现此目标,我们引入了一个适用于自然语言生成的两级分层图模型。在这一框架下,我们建立了一个具有吸引力的几何收敛率,用于衡量LLMs生成的思维链条与真实语言起源的思维链条之间的相似度。我们的发现为LLMs能够产生正确的思维序列提供了理论上的证明(潜在地)解释了在需要推理技能的任务中性能提升的原因。
Oct, 2023
Chain-of-Thought提示可以增强大型语言模型(LLMs)的推理能力,现有的CoT综合方法针对简单推理任务,导致CoT提示的质量低且不一致。为了应对这一挑战,我们进行了CoT提示的实证研究并引入了CoTGenius,一个用于自动生成优质CoT提示的新框架。我们进一步采用CoTGenius创建了一个广泛的CoT数据集,并在该数据集上对Llama 2-Chat 7B和13B模型进行了微调,得到了ChainLM模型。为了解决推理步骤中的累积误差问题,我们提出了一种步骤级辩论方法,其中多个辩论者讨论每个推理步骤,得出正确答案。大量实验证明,与现有模型相比,我们的ChainLM模型在解决一系列复杂推理问题方面表现出更高的熟练度。此外,我们对CoTGenius中的数据类别对模型性能的影响进行了深入分析。我们在此https URL上发布了我们的数据集和代码。
Mar, 2024
通过 fine-tuning LLMs,利用 tree-of-thought 方法构建的搜索树,实现了链式思考解码(CoT)在复杂问题求解中取得类似或更好性能的成果,避免了大量的推理负担。
Jun, 2024
本研究解决了大语言模型在推理任务中由于Transformer架构深度限制的问题。提出了一种新的方法,通过任务特定的监督来优化思维链提示,从而克服“一种提示适用于所有”的局限性。实验显示,应用监督后推理性能显著提升,证明了任务特定监督在高效推理中的重要性。
Oct, 2024
本研究解决了现有思维链评估技术依赖标注数据或无法准确评估中间推理步骤的问题。作者提出了一种信息理论框架,通过量化每一步推理中的“信息增益”,识别大语言模型中的失败模式,且无需昂贵的标注数据集。实验证明该方法在精确评估模型表现方面显著优于现有基于结果的方法。
Nov, 2024