大型语言模型中简明的思维链对问题解决的益处

Jan, 2024

大型语言模型中简明的思维链对问题解决的益处

The Benefits of a Concise Chain of Thought on Problem-Solving in Large Language Models

Matthew Renze, Erhan Guven

TL;DR通过比较标准 CoT 和 CCoT 提示，我们介绍了简洁的思路链 (CCot) 提示，并评估了它对回答长度和正确答案准确性的影响。我们使用 GPT-3.5 和 GPT-4 在多项选择问答 (MCQA) 基准上进行了评估。CCoT 使得 GPT-3.5 和 GPT-4 的回答平均长度减少了 48.70%，对问题解决性能影响微乎其微。然而，在数学问题上，使用 CCoT 的 GPT-3.5 表现出了 27.69% 的性能惩罚。总体而言，CCoT 将每个标记的成本平均降低了 22.67%。这些结果对于使用 LLM 解决带有 CoT 提示工程技术的现实世界问题的 AI 系统工程师具有实际意义。此外，这些结果为研究 LLM 中逐步推理的新兴行为的 AI 研究人员提供了更普遍的见解。

Abstract

In this paper, we introduce concise chain-of-thought (CCoT) prompting. We compared standard CoT and CCoT prompts to see how conciseness impacts response length and →

concise chain-of-thought prompting response length correct-answer accuracy per-token cost reduction

发现论文，激发创造

大型语言模型的思路链测试

通过对 Chain-of-Thought（CoT）提示方式的研究，我们发现 CoT 的正确操作和数值是 GPT-3 在各种任务中获得准确答案的关键，而错误操作会对性能产生负面影响，这项研究加深了我们对 CoT 提示方式的理解，也提出了有关大语言模型在上下文中学习推理能力的新问题。

Sep, 2023

思维的连锁：计划中 CoT 的分析

根据 Blocksworld 的案例研究，通过链式思维问题可以提高大型语言模型的性能，但需要高度问题特定的提示，并且存在性能改善和生成正确推理示例所需人力之间的明显权衡。

May, 2024

何时需要为 ChatGPT 启用思维链提示？

通过使用 Chain-of-Thought 提示，多达数步的复杂推理可以被提取。然而，在 ChatGPT 上，这种提示对于某些任务不再有效。这反映了指令过度拟合 / 偏见的潜在风险，这种情况在训练 LLMs 时变得更为普遍。

Apr, 2023

ChainLM: 通过改进思维连贯性促进大型语言模型的能力

Chain-of-Thought 提示可以增强大型语言模型（LLMs）的推理能力，现有的 CoT 综合方法针对简单推理任务，导致 CoT 提示的质量低且不一致。为了应对这一挑战，我们进行了 CoT 提示的实证研究并引入了 CoTGenius，一个用于自动生成优质 CoT 提示的新框架。我们进一步采用 CoTGenius 创建了一个广泛的 CoT 数据集，并在该数据集上对 Llama 2-Chat 7B 和 13B 模型进行了微调，得到了 ChainLM 模型。为了解决推理步骤中的累积误差问题，我们提出了一种步骤级辩论方法，其中多个辩论者讨论每个推理步骤，得出正确答案。大量实验证明，与现有模型相比，我们的 ChainLM 模型在解决一系列复杂推理问题方面表现出更高的熟练度。此外，我们对 CoTGenius 中的数据类别对模型性能的影响进行了深入分析。我们在此 https URL 上发布了我们的数据集和代码。

Mar, 2024

大型语言模型的自动思维联想提示

本论文提出一种基于链式推理的自动提问方法 Auto-CoT，通过采样具有多样性的问题并生成推理链来构建演示，在十项公共基准推理任务中，Auto-CoT 不断匹配或超越需要手动设计演示的 CoT 范例的性能。

Oct, 2022

迈向更好的思路链引导策略：调研

我们对 Chain-of-Thought (CoT) 的关键因素进行了系统和全面的分析，介绍了如何在不同应用中更好地应用 CoT 提示，并提出了一些建议和未来的研究方向。

Oct, 2023

大型语言模型中的模式感知思维链激励

链式思维提示可以引导语言模型进行复杂的多步推理。我们提出了一种考虑演示模式多样性的提示方法，通过在中间步骤中结合步长和推理过程等模式，有效地缓解由演示引起的偏差问题并实现对不同场景的更好泛化。我们在两个开源 LLM 模型上进行了九个推理基准任务的实验，结果表明我们的方法大大提高了推理性能，并且对错误表现出鲁棒性。代码将公开提供。

Apr, 2024

走向理解思路链提示：对重要性的经验研究

本论文研究了 Chain-of-Thought 提示对大型语言模型的多步推理能力的影响，发现即使使用无效的推理步骤，其提示也能达到 80-90% 的性能，并探究了其他理性方面的影响。

Dec, 2022

无需提示的逻辑链推理

大规模语言模型的推理能力可通过修改解码过程有效地引出连续推理路径，而不需要手动设计提示技术，这种具备内在推理能力的解码方法优于传统贪婪解码方式。

Feb, 2024

CodeCoT 及其进展：学习像开发者一样编程和测试

采用自我审查和连续推导的方法，我们提出了一种名为 Code Chain-of-Thought（CodeCoT）的新策略，通过辅助 LLM 模型生成代码和改进输出，从而显著提高了代码生成的准确性。

Aug, 2023