忠实的串联思考推理
本论文研究了Chain-of-Thought提示对大型语言模型的多步推理能力的影响,发现即使使用无效的推理步骤,其提示也能达到80-90%的性能,并探究了其他理性方面的影响。
Dec, 2022
引入了一种新的Chain-of-Knowledge(CoK)提示方法,旨在引导强大的语言模型(LLMs)生成显式的知识证明作为结构三元组,从而改进Commonsense、事实、符号和算术推理任务的性能,并引入F^2-Verification方法估计链的可靠性
Jun, 2023
通过将问题分解为子问题,强迫模型在不同的上下文中回答简单的子问题,可以显著提高模型生成推理的可靠性,并在一定程度上提升效能,从而有望验证LLM行为的正确性和安全性。
Jul, 2023
在大型语言模型中,通过分析模型预测的变化,研究发现Chain-of-Thought推理在某些任务中对答案预测的条件具有较大影响,但随着模型规模的增大,模型对大多数任务的推理越来越不可信,因此建议在选择模型规模和任务时谨慎使用Chain-of-Thought推理。
Jul, 2023
Chain-of-Thought提示可以增强大型语言模型(LLMs)的推理能力,现有的CoT综合方法针对简单推理任务,导致CoT提示的质量低且不一致。为了应对这一挑战,我们进行了CoT提示的实证研究并引入了CoTGenius,一个用于自动生成优质CoT提示的新框架。我们进一步采用CoTGenius创建了一个广泛的CoT数据集,并在该数据集上对Llama 2-Chat 7B和13B模型进行了微调,得到了ChainLM模型。为了解决推理步骤中的累积误差问题,我们提出了一种步骤级辩论方法,其中多个辩论者讨论每个推理步骤,得出正确答案。大量实验证明,与现有模型相比,我们的ChainLM模型在解决一系列复杂推理问题方面表现出更高的熟练度。此外,我们对CoTGenius中的数据类别对模型性能的影响进行了深入分析。我们在此https URL上发布了我们的数据集和代码。
Mar, 2024
提出了一种基于大型语言模型的新型符号化思维链(SymbCoT)框架,通过将符号表达和逻辑规则与语言模型集成,以增强其逻辑推理能力,并在5个标准数据集上通过深入评估展示了显著的性能提升。
May, 2024
大型语言模型(LLMs)存在严重的不忠实的思维链 (CoT) 问题。本文首先从 CoT 步骤的粒度研究 CoT 忠实性问题,确定了集中式推理和分布式推理两种推理范式,并发现它们与忠实性的关系。随后,我们对环境、CoT 和答案之间的因果关系进行了联合分析。结果证明,当 LLM 预测答案时,它可以从上下文中回忆起 CoT 中缺失的正确信息,导致不忠实的问题。最后,我们提出了推理桥接方法来缓解这个问题,其中我们使用归因方法来作为 CoT 生成的提示并根据其语义一致性和归因分数过滤噪声 CoTs。大量实验证明我们的方法有效地减轻了不忠实的 CoT 问题。
May, 2024
通过在语言模型中引入人类类似的启发式和捷径策略并开发零样本提示策略,以优化Chain-of-Thought推理,同时引入ShortcutQA数据集用于评估和提升人工智能的推理效率。
Jun, 2024
大语言模型(LLM)在关键领域,如医疗保健中得到越来越多的应用,为了确保这些模型生成的链式思维(CoT)推理能够忠实地捕捉其基本行为,我们探索了三种常用方法——上下文学习、微调和激活编辑——来指导LLM的行为,以提高CoT推理的准确性,然而我们的实证分析表明:这些方法在提高CoT推理的准确性方面取得的成果有限,只在受控情境中略有性能提升,激活编辑几乎没有成功,而微调和上下文学习的改进效果仅在部分推理和真实问答评估中表现出来,总结来说,我们的工作强调了从LLMs中获取准确CoT推理的困难性,提示当前的方法可能无法解决这一复杂挑战。
Jun, 2024