第一步优势：多步推理中开始正确的重要性

Nov, 2023

第一步优势：多步推理中开始正确的重要性

First Step Advantage: Importance of Starting Right in Multi-Step Reasoning

Kushal Jain, Kumar Shridhar

TL;DR大型语言模型可以通过为其预测生成理由来解决复杂的推理任务。通过将这些功能融入到较小、紧凑的模型中，可以促进为特定任务量身定制的专门、经济高效的模型的创建。然而，较小的模型在复杂的推理任务中常常面临挑战，并且通常会偏离正确的推理路径。我们发现，只有在恰当的时机介入，大型语言模型才能指导较小的模型并将它们带回正确的推理路径。我们发现，较小的模型在推理方面主要因为难以启动过程而失败，引导它们朝正确的方向发展可以使性能提高 100% 以上。我们探索不同的模型大小并评估提供指导以改善较小模型推理能力的益处。

Abstract

large language models (LLMs) can solve complex reasoning tasks by generating rationales for their predictions. Distilling these capabilities into a smaller, compact model can facilitate the creation of specialize

large language models reasoning tasks smaller models correct reasoning path guidance

发现论文，激发创造

面向多步推理的小语言模型特化

揭示了将大规模语言模型进行特化，使其在特定任务上具有相对较强的表现的可能性，并使用多步数学推理作为测试，通过设计优化措施来提高其广义性能。

Jan, 2023

利用大型语言模型进行忠实推理

通过串联使用微调语言模型进行多步推理的方法，可以解决大型语言模型的单次调用限制，提高多步问题的性能和可解释性。该方法在多步逻辑推导和科学问题回答方面表现优于基线模型，并生成可由用户检查的有效推理过程。

Aug, 2022

用计划标记引导语言模型推理

最近大型语言模型（LLMs）因其执行复杂的推理任务的能力而引起了相当大的关注，但是大部分现有的增强这种能力的方法都过于依赖数据驱动的方法，而忽视了模型推理能力的结构方面。在我们的研究中，我们发现 LLMs 能够很好地处理个别的推理步骤，却在整个推理链上保持一致性方面遇到困难。为了解决这个问题，我们在每个推理步骤的开始引入了 “规划标记”，作为模型的指南。然后，这些标记嵌入与模型的其余参数一起进行微调。我们的方法所需的可训练参数增加微不足道（仅占总参数的 0.001%），可以通过完全微调或更加参数高效的方案来实施。我们通过将其应用于三种不同的 LLMs，并对三个数学问题数据集进行了评估，展示了我们方法的有效性，相对于原始的链式思维微调基准，取得了显著的准确性提升。

Oct, 2023

大型语言模型逻辑推理的教学学习

通过对大型语言模型的研究，我们发现它们在逻辑推理方面存在缺陷，导致其在任务解决中产生反事实的答案。为了解决这个问题，我们提出了多种策略，赋予大型语言模型逻辑推理能力，从而使其能够在不同场景中生成更符合逻辑的答案。我们还通过构建一个综合数据集 (LMM-LR) 对该方法进行了评估和预训练。在不同任务上进行了广泛的定量和定性分析，验证了通过逻辑训练大型语言模型的有效性和必要性，并为将来的工作提供了启示。

Oct, 2023

一项测试模型在某些推理任务中的能力的案例研究

大型语言模型在生成个性化内容和促进交互对话方面表现出色，但在推理能力和提供可解释性输出方面仍有待提高。本研究深入探讨了大型语言模型的推理能力，突出了当前挑战和限制，阻碍了它们在复杂推理场景中的有效性。

Feb, 2024

使用大型语言模型进行可解释的逻辑推理的 Selection-Inference 方法

本文对大型语言模型在逻辑推理方面进行了全面评估，提出了一种基于选择和推理的框架，可以在不进行微调的情况下改进性能，并伴随着因果自然语言推理过程的答案。

May, 2022

现实中的爱丽丝奇境：显示顶尖大型语言模型完整推理过程的简单任务

大型语言模型在各种任务和条件中以零样本或零曝光的方式表现出色，但我们的研究发现在某些基本推理能力上表现出严重的缺陷，需要迅速重新评估当前一代 LLM 的所声称的能力，并创建新的标准评测以发现这些明显被当前评测方法忽视的基本推理缺陷。

Jun, 2024

大语言模型的推理能力：一项调查

本文综述了大型语言模型在推理方面的最新研究，包括提高它们的推理能力的方法、评估它们的推理能力的基准和方法，以及这一领域之前研究的发现和意义，旨在激发有意义的讨论和未来的研究。

Dec, 2022

小语言模型是否能成为顺序推荐的良好推理者？

提出了一种基于知识蒸馏的逐步推理框架（SLIM），以在资源高效的方式下实现顺序推荐系统中的大型语言模型的优秀推理能力，通过基于用户行为序列的 CoT 提示生成的合理性用作标签，将合成的标签融入到更小的学生模型中，从而使学生模型能够在推荐任务中逐步推理，实验结果表明 SLIM 具有显著的有效性和可承受的推荐推理成本。

Mar, 2024

面向关系推理的 LLMs：我们离目标有多远？

通过对归纳逻辑编程基准测试的深入评估，本研究表明与模型规模较小的神经程序归纳系统相比，最新的大型语言模型在推理能力方面表现较差，无论是使用自然语言提示还是真值矩阵提示，它们在性能和泛化方面都表现较低。

Jan, 2024