迈向多步推理答案校准的统一视角

Nov, 2023

迈向多步推理答案校准的统一视角

Towards A Unified View of Answer Calibration for Multi-Step Reasoning

Shumin Deng, Ningyu Zhang, Nay Oo, Bryan Hooi

TL;DR利用链式思考提问的大型语言模型（LLMs）扩大了改进多步推理能力的范围。本文研究了最近的答案校准策略的设计，并从统一的视角对其进行了全面评估，系统地审查了多个路径上的分步和路径级答案校准。我们的研究有潜力揭示优化多步推理的关键见解。

Abstract

large language models (LLMs) employing Chain-of-Thought (CoT) prompting have broadened the scope for improving multi-step reasoning capabilities. Usually, →

large language models chain-of-thought prompting answer calibration strategies multi-step reasoning optimizing multi-step reasoning

发现论文，激发创造

通过思维树增强跨语言多步推理

本研究通过一种自洽的跨语言提示机制，提出了一种跨语言多步推理方法，可以在不同语言中实现多步推理路径，从而达到解决复杂推理任务的目的，并在实验评估中表现出比现有提示方法更优的性能。

Nov, 2023

大型语言模型中多跳问答的图引导推理

通过引入图引导的 CoT 提示方法，以问题 / 理由图为基础的图引导推理方法在多步骤推理中表现出优越性能。

Nov, 2023

逐步思考的方式：链状思维推理的机械性理解

通过对大型语言模型的内部机制进行机械性探索，我们发现大型语言模型在连续思考生成上部署多个并行路径，产生了顺序答案，并观察到模型中的功能分层差异，这是对连续思考推理进行机械性研究的首次尝试。

Feb, 2024

利用大型语言模型进行忠实推理

通过串联使用微调语言模型进行多步推理的方法，可以解决大型语言模型的单次调用限制，提高多步问题的性能和可解释性。该方法在多步逻辑推导和科学问题回答方面表现优于基线模型，并生成可由用户检查的有效推理过程。

Aug, 2022

语言模型中的多模态思维链推理

该研究提出了一种将语言与视觉信息相结合的理由生成和答案推断的多模态 - CoT 框架，使得答案推断可以更好地利用基于多模态信息的生成的理由，并取得了比先前最先进的 LLM（GPT-3.5）高 16 个百分点（75.17％-> 91.68％准确度）的性能，在 ScienceQA 基准测试中甚至超过了人类的表现。

Feb, 2023

从算术任务中学习多步推理

本研究探究如何将较小的语言模型与多步推理能力相结合，通过在合成数据集 MsAT 上进行持续的预训练，我们的实验证明了该方法对增强语言模型的数学推理能力的有效性。

Jun, 2023

推理步长对大型语言模型的影响

通过一系列实验，研究发现链式思维（CoT）在大型语言模型（LLMs）的推理能力提升中起到重要作用，推理步骤的长度与 CoT 的有效性之间的相关性还不完全清楚，本研究对此进行了探索，并得出了以下主要发现：1. 增加问题中推理步骤的长度能显著提高 LLMs 在多个数据集上的推理能力；2. 即使使用的推理方法有误，只要保持了必要的推理步骤长度，仍能取得良好的结果；3. 推理步骤的增加对任务的优势取决于任务的复杂性。这些发现对于在复杂问题解决场景中更好地利用 LLMs 的潜力提供了实际指导。

Jan, 2024

通过潜变量推断训练思维链

大型语言模型通过使用 ``思维链 '' 提示以逐步解决问题的方式更准确地解释，一种监督微调的方法是通过使用可调参数的梯度上升来最大化标记训练集中正确答案的平均对数似然。然而，我们提出了一种微调策略，尝试通过使用思维链提示最大化生成正确答案的`` 边际 '' 对数似然，大致平均所有可能的解释。我们使用受自学习推理器、备忘录式唤醒 - 休眠、马尔可夫性分数爬升和持续对比散度启发的简单马尔可夫链蒙特卡罗 - 期望最大化 (EM) 算法来解决条件于正确答案的解释后验分布的采样问题，并采用一种新颖的控制变量技术，随着模型的改进，将逐渐降低梯度估计的方差。将我们的技术应用于 GSM8K 和 BIG-Bench Hard 中的任务，我们发现这种 MCMC-EM 微调技术通常比 STaR 或带有或不带有思维链提示的微调方法在留存样例上提高模型准确性。

Nov, 2023

链条思维推理中的忠实性测量

在大型语言模型中，通过分析模型预测的变化，研究发现 Chain-of-Thought 推理在某些任务中对答案预测的条件具有较大影响，但随着模型规模的增大，模型对大多数任务的推理越来越不可信，因此建议在选择模型规模和任务时谨慎使用 Chain-of-Thought 推理。

Jul, 2023

瞄准内部一致性：对语言模型进行推理校准

通过检查中间层解码的潜在预测的一致性，我们提出了内部一致性作为模型信心的度量，这有效地区分了正确和错误的推理路径，并通过加权具有高内部一致性的推理路径来调整链式推理，从而显著提高了推理性能。我们的结果表明，内部表示的使用可以将 LLMs 自我评估的潜力展现出来。

May, 2024