大型语言模型的思路链测试

Sep, 2023

Stress Testing Chain-of-Thought Prompting for Large Language Models

Aayush Mishra, Karan Thakkar

TL;DR通过对 Chain-of-Thought（CoT）提示方式的研究，我们发现 CoT 的正确操作和数值是 GPT-3 在各种任务中获得准确答案的关键，而错误操作会对性能产生负面影响，这项研究加深了我们对 CoT 提示方式的理解，也提出了有关大语言模型在上下文中学习推理能力的新问题。

Abstract

This report examines the effectiveness of chain-of-thought (CoT) prompting in improving the multi-step reasoning abilities of

chain-of-thought prompting multi-step reasoning large language models accuracy metrics

发现论文，激发创造

走向理解思路链提示：对重要性的经验研究

本论文研究了 Chain-of-Thought 提示对大型语言模型的多步推理能力的影响，发现即使使用无效的推理步骤，其提示也能达到 80-90% 的性能，并探究了其他理性方面的影响。

Dec, 2022

大型语言模型的自动思维联想提示

本论文提出一种基于链式推理的自动提问方法 Auto-CoT，通过采样具有多样性的问题并生成推理链来构建演示，在十项公共基准推理任务中，Auto-CoT 不断匹配或超越需要手动设计演示的 CoT 范例的性能。

Oct, 2022

流式批处理下的思维链提示：以案例研究为例

本研究探讨如何在流式学习环境下对批处理数据进行链状思维提示构建和优化，以实现大型语言模型的复杂推理能力自动化。

Jun, 2023

大型语言模型中的模式感知思维链激励

链式思维提示可以引导语言模型进行复杂的多步推理。我们提出了一种考虑演示模式多样性的提示方法，通过在中间步骤中结合步长和推理过程等模式，有效地缓解由演示引起的偏差问题并实现对不同场景的更好泛化。我们在两个开源 LLM 模型上进行了九个推理基准任务的实验，结果表明我们的方法大大提高了推理性能，并且对错误表现出鲁棒性。代码将公开提供。

Apr, 2024

迈向更好的思路链引导策略：调研

我们对 Chain-of-Thought (CoT) 的关键因素进行了系统和全面的分析，介绍了如何在不同应用中更好地应用 CoT 提示，并提出了一些建议和未来的研究方向。

Oct, 2023

何时需要为 ChatGPT 启用思维链提示？

通过使用 Chain-of-Thought 提示，多达数步的复杂推理可以被提取。然而，在 ChatGPT 上，这种提示对于某些任务不再有效。这反映了指令过度拟合 / 偏见的潜在风险，这种情况在训练 LLMs 时变得更为普遍。

Apr, 2023

链思路有效性影响因素的解析：概率、记忆和噪音推理

通过针对解码位移密码的符号推理任务，我们详细研究了影响 CoT 推理的三个因素：任务输出的概率、预训练中隐式学习的成果和推理中的中间操作数量。我们发现这些因素可以极大地影响任务的准确性，并证明了模型明确产生中间步骤作为输出并将其作为条件可能性来提高正确答案的概率的重要性。总体而言，我们得出结论，CoT 提示性能既反映了记忆化，也反映了概率推理的真实版本。

Jul, 2024

语言模型并不总是说他们想的：链状思维提示中的不忠实解释

本研究发现 Large Language Models 的 Chain-of-Thought Reasoning （思维的串联过程）能够提供合理的解释，但有时会受到输入偏见的影响而误导我们对模型预测的真实原因的认识，这可能导致人们过度信任 LLMs 的预测结果，因此有必要针对模型解释的忠实度进行有针对性的评估和改进，特别是在社会偏见问题方面。

May, 2023

探索大型语言模型在通过思维链路提示进行反思评估方法中的效力

通过 CoT 提示方法来评估四个语言模型对第三年医学生反思性文章的打分，结果显示 Llama-7b 表现最差，均方误差最高，而 ChatGPT 表现出色，科恩卡帕分数达到 0.53。此外，所选模型均优先考虑用户隐私，允许用户删除自己进行的会话。

Sep, 2023

通过基于梯度的特征归因分析大型语言模型中的思维链提示

CoT 提示法通过梯度特征归因方法揭示其对模型输入的影响，提高了模型对问题扰动和输出变化的鲁棒性。

Jul, 2023