小型语言模型为方程推理者
该论文研究了大型语言模型在数学问题推理方面的能力,特别关注符号推理在数值问题中的准确性,并通过自提示的方法提高了符号准确性,为模型提供了简洁可验证的推理能力。
Aug, 2023
在这篇论文中,我们提出了一种名为SYRELM的架构,它通过采用符号求解器来将自然语言算术问题转化为形式化语言描述,然后通过一个小型冻结的LM生成包含自然语言描述的形式化表达式,并通过策略梯度强化学习训练适应的LM,从而实现合理的算术推理。该方法在准确性上取得了巨大的改进,并具有易于诊断、解释和大多数研究人员可以使用的特点。
Dec, 2023
通过将大型语言模型的数学推理能力压缩到亿级参数的小型语言模型中,不影响性能,以实现先进的大型语言模型民主化。我们提出了EoTD(Equation-of-Thought Distillation)技术,将推理过程封装到基于方程的表示中,构建了EoTD数据集用于微调小型语言模型。此外,我们提出了MTD(Mix Thoughts Distillation)框架,以增强小型语言模型的推理性能。实验结果表明,EoTD显著提升了小型语言模型的推理能力,而MTD使这些模型达到了最先进的推理性能。
Jan, 2024
数学推理是评估人类智能基本认知能力的基石。该研究调查了大型语言模型在解决数学问题方面的真正进展、障碍、数学问题类型和相关数据集、解决数学问题的LLM技术范围、影响LLMs解决数学问题的因素和问题,并提供了这一快速发展领域中的现状、成就和未来挑战的整体观点。
Jan, 2024
使用大型语言模型来生成Prolog程序以解决数学问题,在GSM8K基准测试中,我们的Prolog算术问题解决方法在三个不同的大型语言模型中胜过了Chain of Thought。我们提出对真值谓词进行排列组合,以通过数据增强方法来增加训练的健壮性。
May, 2024
大型语言模型在各种任务中取得了令人印象深刻的表现,即使它们通常只是为了与用户流畅聊天而训练。本文系统地研究了流行的开源大型语言模型在不同符号推理任务上的能力和局限性。我们评估了Llama 2家族的三个模型在两个需要解决不同难度数学公式的数据集上。我们测试了一个通用的大型语言模型(Llama 2 Chat)以及两个专门设计用于解决数学问题的经过微调的Llama 2版本(MAmmoTH和MetaMath)。我们观察到,增加模型规模并在相关任务上进行微调可以显著提高性能。此外,通过使用细粒度的评估指标,我们发现这种性能提升主要出现在复杂度较低的数学公式上,尽管对于最大的经过微调的模型来说,这些公式通常仍然具有一定挑战性。
Jun, 2024