从算术任务中学习多步推理
在这篇论文中,我们提出了一种名为 SYRELM 的架构,它通过采用符号求解器来将自然语言算术问题转化为形式化语言描述,然后通过一个小型冻结的 LM 生成包含自然语言描述的形式化表达式,并通过策略梯度强化学习训练适应的 LM,从而实现合理的算术推理。该方法在准确性上取得了巨大的改进,并具有易于诊断、解释和大多数研究人员可以使用的特点。
Dec, 2023
在这篇论文中,我们通过探索一种机械化方法来回答语言模型在多步推理任务中是通过抄袭预训练语料库中记忆的答案还是通过多步推理机制来完成这些任务的疑问。我们引入了一种新的探测方法(称为机械化探测器),从模型的注意力模式中恢复推理树,用于分析两个语言模型:GPT-2 在一个合成任务(第 k 个最小元素)上以及 LLaMA 在两个简单的基于语言的推理任务(ProofWriter 和 AI2 推理挑战)上。我们展示了机械化探测器能够在大多数示例中从模型的注意力中检测到推理树的信息,这表明在许多情况下语言模型确实在其架构中经历了一个多步推理的过程。
Oct, 2023
使用大型语言模型来生成 Prolog 程序以解决数学问题,在 GSM8K 基准测试中,我们的 Prolog 算术问题解决方法在三个不同的大型语言模型中胜过了 Chain of Thought。我们提出对真值谓词进行排列组合,以通过数据增强方法来增加训练的健壮性。
May, 2024
通过进行实验案例研究并将结果与机器学习中的样本和计算复杂性联系起来,我们发现如果问题可以分解成一系列推理步骤,并且学习预测下一步具有较低的样本和计算复杂性,明确列出推理链与预测下一步所需的所有必要信息可能会改善性能,相反,对于计算复杂的问题,采用树状推理可能比尝试形成简短的推理链更好地产生推理结果。
Apr, 2024
通过对高质量合成数据的微调,本文通过提出的算术难题问题展示出大型语言模型在多步推理任务上的出色表现,并通过开源的 3B 模型在三个不同的测试数据集上实验结果表明,这种模型不仅在域内数据集上能够达到 0.44 的零样本一次通过率 @1,而且还在域外数据集上展现出一定的泛化能力,对于扩展数字范围和算术难题问题的组合组件分别设计了两个域外数据集,在这两个更难的任务上,经过微调的模型展示出令人鼓舞的表现,零样本一次通过率 @1 分别为 0.33 和 0.35。
Jun, 2024
本研究利用因果中介分析框架对大型语言模型在算术问题上的机制解释进行了研究,结果表明,中后期少量层次的激活对算术问题预测结果产生显著影响,模型对算术问题和事实知识的预测有不同的激活模式,并揭示了语言模型中涉及算术推理的特定组分。
May, 2023
通过串联使用微调语言模型进行多步推理的方法,可以解决大型语言模型的单次调用限制,提高多步问题的性能和可解释性。该方法在多步逻辑推导和科学问题回答方面表现优于基线模型,并生成可由用户检查的有效推理过程。
Aug, 2022