监督式思维链
本论文研究了Chain-of-Thought提示对大型语言模型的多步推理能力的影响,发现即使使用无效的推理步骤,其提示也能达到80-90%的性能,并探究了其他理性方面的影响。
Dec, 2022
通过使用自动探索的 CoT prompt 对多个 LLMs 进行无监督语言生成,我们发现将该 prompt 应用于最新的 GPT-4 模型是最优的。
May, 2023
研究表明Chain-of-Thought提示可以显著改善大型语言模型的性能,特别是在涉及数学或推理的复杂任务中。本文首先对这些问题的潜在机制进行了理论方面的探讨, 然后通过构建的方式证明了带有CoT的自回归机器人可以解决基本算术方程问题和决策制定问题,并且具有动态编程方面的潜在应用。
May, 2023
使用混合任务场景中的元推理链 (Meta-CoT) 提示方法,构建来自相应数据池的多样化演示,可同时在十个公共基准推理任务上表现出卓越的性能和优越的泛化能力。
Oct, 2023
通过创新的提示技术,自然语言处理领域近年来取得了显著进展,其中,结合结构的提示工程被证明是一种有前景的范例,大大增强了大型语言模型在逻辑、数学推理、规划和创造性写作等任务中的能力。本研究分析了提示执行流程,提出了结构增强型大型语言模型推理方案的分类,并比较了不同设计选择在性能和成本上的差异,同时探讨了提示与知识库等大型语言模型生态系统其他部分之间的理论基础和关系,为未来的提示工程技术的发展提供了帮助。
Jan, 2024
Chain-of-Thought提示可以增强大型语言模型(LLMs)的推理能力,现有的CoT综合方法针对简单推理任务,导致CoT提示的质量低且不一致。为了应对这一挑战,我们进行了CoT提示的实证研究并引入了CoTGenius,一个用于自动生成优质CoT提示的新框架。我们进一步采用CoTGenius创建了一个广泛的CoT数据集,并在该数据集上对Llama 2-Chat 7B和13B模型进行了微调,得到了ChainLM模型。为了解决推理步骤中的累积误差问题,我们提出了一种步骤级辩论方法,其中多个辩论者讨论每个推理步骤,得出正确答案。大量实验证明,与现有模型相比,我们的ChainLM模型在解决一系列复杂推理问题方面表现出更高的熟练度。此外,我们对CoTGenius中的数据类别对模型性能的影响进行了深入分析。我们在此https URL上发布了我们的数据集和代码。
Mar, 2024
根据Blocksworld的案例研究,通过链式思维问题可以提高大型语言模型的性能,但需要高度问题特定的提示,并且存在性能改善和生成正确推理示例所需人力之间的明显权衡。
May, 2024
通过在语言模型中引入人类类似的启发式和捷径策略并开发零样本提示策略,以优化Chain-of-Thought推理,同时引入ShortcutQA数据集用于评估和提升人工智能的推理效率。
Jun, 2024
本文从统计估计的角度分析链式思维(CoT)提示及其变体,针对其样本复杂性进行了全面描述。研究表明,在大规模预训练数据集的情况下,CoT 提示形成的估计量等同于贝叶斯估计量,有效解决多步推理问题,并通过实验验证了理论结果。
Aug, 2024
本研究聚焦于链式思维提示(CoT)在多步推理问题中的有效性,填补了对其样本复杂度的统计分析这一空白。研究引入了一种多步潜在变量模型,表明当预训练数据集足够大时,CoT提示形成的估计器等同于贝叶斯估计器,其统计错误可以分解为提示误差和预训练模型的统计误差。关键发现是,提示误差随着演示样本数量的增加呈指数衰减,展示了这种方法在多步推理中的有效性和潜在影响。
Aug, 2024