迈向多步推理答案校准的统一视角
本研究通过一种自洽的跨语言提示机制,提出了一种跨语言多步推理方法,可以在不同语言中实现多步推理路径,从而达到解决复杂推理任务的目的,并在实验评估中表现出比现有提示方法更优的性能。
Nov, 2023
通过对大型语言模型的内部机制进行机械性探索,我们发现大型语言模型在连续思考生成上部署多个并行路径,产生了顺序答案,并观察到模型中的功能分层差异,这是对连续思考推理进行机械性研究的首次尝试。
Feb, 2024
通过串联使用微调语言模型进行多步推理的方法,可以解决大型语言模型的单次调用限制,提高多步问题的性能和可解释性。该方法在多步逻辑推导和科学问题回答方面表现优于基线模型,并生成可由用户检查的有效推理过程。
Aug, 2022
该研究提出了一种将语言与视觉信息相结合的理由生成和答案推断的多模态 - CoT 框架,使得答案推断可以更好地利用基于多模态信息的生成的理由,并取得了比先前最先进的 LLM(GPT-3.5)高 16 个百分点(75.17%-> 91.68%准确度)的性能,在 ScienceQA 基准测试中甚至超过了人类的表现。
Feb, 2023
本研究探究如何将较小的语言模型与多步推理能力相结合,通过在合成数据集 MsAT 上进行持续的预训练,我们的实验证明了该方法对增强语言模型的数学推理能力的有效性。
Jun, 2023
通过一系列实验,研究发现链式思维(CoT)在大型语言模型(LLMs)的推理能力提升中起到重要作用,推理步骤的长度与 CoT 的有效性之间的相关性还不完全清楚,本研究对此进行了探索,并得出了以下主要发现:1. 增加问题中推理步骤的长度能显著提高 LLMs 在多个数据集上的推理能力;2. 即使使用的推理方法有误,只要保持了必要的推理步骤长度,仍能取得良好的结果;3. 推理步骤的增加对任务的优势取决于任务的复杂性。这些发现对于在复杂问题解决场景中更好地利用 LLMs 的潜力提供了实际指导。
Jan, 2024
大型语言模型通过使用 ``思维链 '' 提示以逐步解决问题的方式更准确地解释,一种监督微调的方法是通过使用可调参数的梯度上升来最大化标记训练集中正确答案的平均对数似然。然而,我们提出了一种微调策略,尝试通过使用思维链提示最大化生成正确答案的`` 边际 '' 对数似然,大致平均所有可能的解释。我们使用受自学习推理器、备忘录式唤醒 - 休眠、马尔可夫性分数爬升和持续对比散度启发的简单马尔可夫链蒙特卡罗 - 期望最大化 (EM) 算法来解决条件于正确答案的解释后验分布的采样问题,并采用一种新颖的控制变量技术,随着模型的改进,将逐渐降低梯度估计的方差。将我们的技术应用于 GSM8K 和 BIG-Bench Hard 中的任务,我们发现这种 MCMC-EM 微调技术通常比 STaR 或带有或不带有思维链提示的微调方法在留存样例上提高模型准确性。
Nov, 2023
在大型语言模型中,通过分析模型预测的变化,研究发现 Chain-of-Thought 推理在某些任务中对答案预测的条件具有较大影响,但随着模型规模的增大,模型对大多数任务的推理越来越不可信,因此建议在选择模型规模和任务时谨慎使用 Chain-of-Thought 推理。
Jul, 2023
通过检查中间层解码的潜在预测的一致性,我们提出了内部一致性作为模型信心的度量,这有效地区分了正确和错误的推理路径,并通过加权具有高内部一致性的推理路径来调整链式推理,从而显著提高了推理性能。我们的结果表明,内部表示的使用可以将 LLMs 自我评估的潜力展现出来。
May, 2024