神经符号数据生成用于数学推理
利用大型语言模型(LLMs)进行特定领域的数学推导是一项新兴的研究方向,可以帮助发现模型的局限性,潜在地支持数学发现。本文利用符号引擎在大规模上生成方程的推导,并研究LLMs在从前提中推导目标方程时的能力。实证结果表明,fine-tuned FLAN-T5-large (MathT5)在绝对性能方面超过了GPT模型在所有静态和分布外的测试集上。然而,深入分析发现,fine-tuned模型对于涉及未知符号的扰动(以及较小程度的方程结构更改)更为敏感。此外,我们分析了1.7K个方程和200多个推导,突出了常见的推理错误,如包含不正确、无关或多余的方程,以及跳过推导步骤的倾向。最后,我们探讨了评估数学推导的现有指标的适用性,发现尽管它们能捕捉到对扰动的敏感性等一般属性,但无法凸显细粒度的推理错误和模型之间的重要差异。总体来说,本研究表明在合成数据上训练模型可以提高其数学能力,超越更大的架构。
Jul, 2023
该论文研究了大型语言模型在数学问题推理方面的能力,特别关注符号推理在数值问题中的准确性,并通过自提示的方法提高了符号准确性,为模型提供了简洁可验证的推理能力。
Aug, 2023
在这篇论文中,我们提出了一种名为SYRELM的架构,它通过采用符号求解器来将自然语言算术问题转化为形式化语言描述,然后通过一个小型冻结的LM生成包含自然语言描述的形式化表达式,并通过策略梯度强化学习训练适应的LM,从而实现合理的算术推理。该方法在准确性上取得了巨大的改进,并具有易于诊断、解释和大多数研究人员可以使用的特点。
Dec, 2023
数学推理是评估人类智能基本认知能力的基石。该研究调查了大型语言模型在解决数学问题方面的真正进展、障碍、数学问题类型和相关数据集、解决数学问题的LLM技术范围、影响LLMs解决数学问题的因素和问题,并提供了这一快速发展领域中的现状、成就和未来挑战的整体观点。
Jan, 2024
大型语言模型在各种任务中取得了令人印象深刻的表现,即使它们通常只是为了与用户流畅聊天而训练。本文系统地研究了流行的开源大型语言模型在不同符号推理任务上的能力和局限性。我们评估了Llama 2家族的三个模型在两个需要解决不同难度数学公式的数据集上。我们测试了一个通用的大型语言模型(Llama 2 Chat)以及两个专门设计用于解决数学问题的经过微调的Llama 2版本(MAmmoTH和MetaMath)。我们观察到,增加模型规模并在相关任务上进行微调可以显著提高性能。此外,通过使用细粒度的评估指标,我们发现这种性能提升主要出现在复杂度较低的数学公式上,尽管对于最大的经过微调的模型来说,这些公式通常仍然具有一定挑战性。
Jun, 2024
我们提出了MathCAMPS方法,用于合成高质量的数学问题,并通过LLMs将其转化为单词问题,以进一步探索数学问题解决和对话中的各种技能和能力。
Jul, 2024
本研究针对现有数学数据集在评估大型语言模型(LLMs)推理能力时的局限性,提出了使用符号程序进行自动化评估的新方法。通过提取知名数学数据集中的程序,研究表明这些程序能够有效 encapsulate 解决原文本问题所需的合理推理,而我们对不同输入输出对的应用评估显示出最先进的 LLMs 在数学推理上存在显著脆弱性。
Oct, 2024
本研究针对大规模、高质量领域特定数据集的缺乏问题,提出了一种新的模板数据生成方法(TDG),利用GPT-4生成参数化元模板,从而合成出超过700万个小学数学问题及其解决方案。研究发现,该数据集为大规模数学数据集的稀缺问题提供了解决方案,并为预训练、微调和评估语言模型在数学推理中的应用提供了宝贵资源。
Nov, 2024
本研究比较了大型语言模型(LLMs)和神经符号方法在解决拉文的渐进矩阵(RPM)中的表现,该测试涉及数学规则的理解。尽管提供了结构化的表示,GPT-4和Llama-3 70B仍未达到完美准确率,分析表明LLM在理解和执行算术规则方面存在局限,而神经符号方法ARLC在此领域展现出几乎完美的准确率,提供了一种潜在的改进方案。
Dec, 2024