推理步长对大型语言模型的影响

Jan, 2024

The Impact of Reasoning Step Length on Large Language Models

Mingyu Jin, Qinkai Yu, Dong shu, Haiyan Zhao, Wenyue Hua...

TL;DR通过一系列实验，研究发现链式思维（CoT）在大型语言模型（LLMs）的推理能力提升中起到重要作用，推理步骤的长度与 CoT 的有效性之间的相关性还不完全清楚，本研究对此进行了探索，并得出了以下主要发现：1. 增加问题中推理步骤的长度能显著提高 LLMs 在多个数据集上的推理能力；2. 即使使用的推理方法有误，只要保持了必要的推理步骤长度，仍能取得良好的结果；3. 推理步骤的增加对任务的优势取决于任务的复杂性。这些发现对于在复杂问题解决场景中更好地利用 LLMs 的潜力提供了实际指导。

Abstract

chain of thought (CoT) is significant in improving the reasoning abilities of large language models (llms). However, the correlation betwe

chain of thought reasoning abilities length of reasoning steps rational reasoning llms

发现论文，激发创造

走向理解思路链提示：对重要性的经验研究

本论文研究了 Chain-of-Thought 提示对大型语言模型的多步推理能力的影响，发现即使使用无效的推理步骤，其提示也能达到 80-90% 的性能，并探究了其他理性方面的影响。

Dec, 2022

通过思维树增强跨语言多步推理

本研究通过一种自洽的跨语言提示机制，提出了一种跨语言多步推理方法，可以在不同语言中实现多步推理路径，从而达到解决复杂推理任务的目的，并在实验评估中表现出比现有提示方法更优的性能。

Nov, 2023

关于 LLMs 的推理和规划经验复杂性的研究

通过进行实验案例研究并将结果与机器学习中的样本和计算复杂性联系起来，我们发现如果问题可以分解成一系列推理步骤，并且学习预测下一步具有较低的样本和计算复杂性，明确列出推理链与预测下一步所需的所有必要信息可能会改善性能，相反，对于计算复杂的问题，采用树状推理可能比尝试形成简短的推理链更好地产生推理结果。

Apr, 2024

使用链式知识提示提升语言模型推理能力

引入了一种新的 Chain-of-Knowledge (CoK) 提示方法，旨在引导强大的语言模型（LLMs）生成显式的知识证明作为结构三元组，从而改进 Commonsense、事实、符号和算术推理任务的性能，并引入 F^2-Verification 方法估计链的可靠性

Jun, 2023

大型语言模型是推理教师

本研究提出了 Fine-tune-CoT 方法，该方法利用非常大的语言模型以生成推理样本并通过微调来教授较小的模型，从而在较小的模型中实现了大量的推理能力优化。

Dec, 2022

大型语言模型的思路链测试

通过对 Chain-of-Thought（CoT）提示方式的研究，我们发现 CoT 的正确操作和数值是 GPT-3 在各种任务中获得准确答案的关键，而错误操作会对性能产生负面影响，这项研究加深了我们对 CoT 提示方式的理解，也提出了有关大语言模型在上下文中学习推理能力的新问题。

Sep, 2023

语言模型中的多模态思维链推理

该研究提出了一种将语言与视觉信息相结合的理由生成和答案推断的多模态 - CoT 框架，使得答案推断可以更好地利用基于多模态信息的生成的理由，并取得了比先前最先进的 LLM（GPT-3.5）高 16 个百分点（75.17％-> 91.68％准确度）的性能，在 ScienceQA 基准测试中甚至超过了人类的表现。

Feb, 2023

大型语言模型的自动思维联想提示

本论文提出一种基于链式推理的自动提问方法 Auto-CoT，通过采样具有多样性的问题并生成推理链来构建演示，在十项公共基准推理任务中，Auto-CoT 不断匹配或超越需要手动设计演示的 CoT 范例的性能。

Oct, 2022

逐步思考的方式：链状思维推理的机械性理解

通过对大型语言模型的内部机制进行机械性探索，我们发现大型语言模型在连续思考生成上部署多个并行路径，产生了顺序答案，并观察到模型中的功能分层差异，这是对连续思考推理进行机械性研究的首次尝试。

Feb, 2024

打破链条：大型语言模型能成为捷径推理器

通过在语言模型中引入人类类似的启发式和捷径策略并开发零样本提示策略，以优化 Chain-of-Thought 推理，同时引入 ShortcutQA 数据集用于评估和提升人工智能的推理效率。

Jun, 2024