大型语言模型的思路链测试
本论文研究了 Chain-of-Thought 提示对大型语言模型的多步推理能力的影响,发现即使使用无效的推理步骤,其提示也能达到 80-90% 的性能,并探究了其他理性方面的影响。
Dec, 2022
本论文提出一种基于链式推理的自动提问方法 Auto-CoT,通过采样具有多样性的问题并生成推理链来构建演示,在十项公共基准推理任务中,Auto-CoT 不断匹配或超越需要手动设计演示的 CoT 范例的性能。
Oct, 2022
链式思维提示可以引导语言模型进行复杂的多步推理。我们提出了一种考虑演示模式多样性的提示方法,通过在中间步骤中结合步长和推理过程等模式,有效地缓解由演示引起的偏差问题并实现对不同场景的更好泛化。我们在两个开源 LLM 模型上进行了九个推理基准任务的实验,结果表明我们的方法大大提高了推理性能,并且对错误表现出鲁棒性。代码将公开提供。
Apr, 2024
我们对 Chain-of-Thought (CoT) 的关键因素进行了系统和全面的分析,介绍了如何在不同应用中更好地应用 CoT 提示,并提出了一些建议和未来的研究方向。
Oct, 2023
通过使用 Chain-of-Thought 提示,多达数步的复杂推理可以被提取。然而,在 ChatGPT 上,这种提示对于某些任务不再有效。这反映了指令过度拟合 / 偏见的潜在风险,这种情况在训练 LLMs 时变得更为普遍。
Apr, 2023
通过针对解码位移密码的符号推理任务,我们详细研究了影响 CoT 推理的三个因素:任务输出的概率、预训练中隐式学习的成果和推理中的中间操作数量。我们发现这些因素可以极大地影响任务的准确性,并证明了模型明确产生中间步骤作为输出并将其作为条件可能性来提高正确答案的概率的重要性。总体而言,我们得出结论,CoT 提示性能既反映了记忆化,也反映了概率推理的真实版本。
Jul, 2024
本研究发现 Large Language Models 的 Chain-of-Thought Reasoning (思维的串联过程)能够提供合理的解释,但有时会受到输入偏见的影响而误导我们对模型预测的真实原因的认识,这可能导致人们过度信任 LLMs 的预测结果,因此有必要针对模型解释的忠实度进行有针对性的评估和改进,特别是在社会偏见问题方面。
May, 2023
通过 CoT 提示方法来评估四个语言模型对第三年医学生反思性文章的打分,结果显示 Llama-7b 表现最差,均方误差最高,而 ChatGPT 表现出色,科恩卡帕分数达到 0.53。此外,所选模型均优先考虑用户隐私,允许用户删除自己进行的会话。
Sep, 2023