大型语言模型的过度推理和冗余计算
通过进行实验案例研究并将结果与机器学习中的样本和计算复杂性联系起来,我们发现如果问题可以分解成一系列推理步骤,并且学习预测下一步具有较低的样本和计算复杂性,明确列出推理链与预测下一步所需的所有必要信息可能会改善性能,相反,对于计算复杂的问题,采用树状推理可能比尝试形成简短的推理链更好地产生推理结果。
Apr, 2024
大型语言模型(LLMs)在生成连贯思路解释时展现出强大的推理能力,然而,之前的研究仅关注于回答的准确性,忽略了生成的连贯思路的正确性。本文通过利用知识图谱(KGs)深入探讨 LLMs 在多跳问题回答中的连贯思路推理能力。我们提出了一种新颖的区分性和生成性连贯思路评估范式,用于评估 LLMs 关于推理的知识和生成连贯思路的准确性。通过在两个多跳问题回答数据集上对 5 个不同家族的 LLMs 进行的实验证明,LLMs 具有足够的知识进行推理,然而,LLMs 生成的连贯思路的准确性与回答的准确性存在显著差异,表明它们经常通过错误的推理方法得出正确的答案。
Feb, 2024
使用大型语言模型来生成 Prolog 程序以解决数学问题,在 GSM8K 基准测试中,我们的 Prolog 算术问题解决方法在三个不同的大型语言模型中胜过了 Chain of Thought。我们提出对真值谓词进行排列组合,以通过数据增强方法来增加训练的健壮性。
May, 2024
大型语言模型(LLMs)能够用链式思维推理回答知识密集型复杂问题,但当模型的参数中缺少所需的知识或不是最新的时,它们往往会产生错误的推理步骤。本文提出一种新方法:概率思维树推理(ProbTree)。在开放领域的情境下,我们利用外部知识检索加强链式推理,通过解决从叶节点到根节点的问题,考虑问题分解和回答的置信度,在推理过程中消除了负面检索问题,并借助层次结构对非叶节点进行全局推理,从而弥补了局部错误。实验证明,我们的方法在三个复杂问答数据集上显著优于最先进方法,证明了概率思维树推理的有效性。
Nov, 2023
最近大语言模型(LLM),特别是链式思维(CoT)提示的发明,使得解决推理问题成为可能。本文探讨 LLMs 是否具备识别自身错误的能力,无需外部资源。具体而言,我们研究它们是否能够用于识别逐步推理中的个别错误。为此,我们提出了一种零 - shot 验证方案来识别这些错误。然后,我们使用这个验证方案来提高问题回答的性能,通过对不同生成答案进行加权投票。我们在三个数学数据集 - GSM8K,MathQA 和 MATH 上测试了该方法,发现它成功地识别错误,并进而提高了最终的预测性能。
Aug, 2023
我们引入了一种新颖的框架,LM-Guided CoT,它利用轻量级(即 <1B)语言模型(LM)指导黑盒大型(即> 10B)LM 在推理任务中的工作。具体而言,轻量级 LM 首先为每个输入实例生成理论依据,接着使用冻结的大型 LM 根据轻量级 LM 生成的理论依据预测任务输出。我们的方法在资源利用上高效,只需要训练轻量级 LM。我们通过知识蒸馏和强化学习来优化模型,其中蒸馏和任务导向的奖励信号用于强化学习。我们通过多跳摘要问答基准 HotpotQA 和 2WikiMultiHopQA 来评估我们的方法。实验结果表明,我们的方法在回答预测准确性方面优于所有基准方法。我们还发现,强化学习有助于模型生成更高质量的理论依据,并提高问答的性能。
Apr, 2024
本文通过介绍一种新的合成问答数据集 PrOntoQA,旨在通过对 LLMs 的系统探索,该数据集是通过使用一阶逻辑表示的合成世界模型生成的。作者对 InstructGPT 和 GPT-3 进行了分析,表明 LLMs 能够进行正确的逻辑推理,但在方案规划方面存在困难。
Oct, 2022
大型语言模型通过使用 ``思维链 '' 提示以逐步解决问题的方式更准确地解释,一种监督微调的方法是通过使用可调参数的梯度上升来最大化标记训练集中正确答案的平均对数似然。然而,我们提出了一种微调策略,尝试通过使用思维链提示最大化生成正确答案的`` 边际 '' 对数似然,大致平均所有可能的解释。我们使用受自学习推理器、备忘录式唤醒 - 休眠、马尔可夫性分数爬升和持续对比散度启发的简单马尔可夫链蒙特卡罗 - 期望最大化 (EM) 算法来解决条件于正确答案的解释后验分布的采样问题,并采用一种新颖的控制变量技术,随着模型的改进,将逐渐降低梯度估计的方差。将我们的技术应用于 GSM8K 和 BIG-Bench Hard 中的任务,我们发现这种 MCMC-EM 微调技术通常比 STaR 或带有或不带有思维链提示的微调方法在留存样例上提高模型准确性。
Nov, 2023