无算法的算术:语言模型利用启发式方法解决数学问题
该研究针对数学领域中的推理、学习、应用规则等独特挑战,提出了一个数学问题套件的任务,用于测试和评估神经架构等系统的性能、能力和失效模式。通过生成数据并运用序列到序列的最强模型,可以从不同角度评估模型在数学问题解决和知识推广方面的能力。
Apr, 2019
本研究利用因果中介分析框架对大型语言模型在算术问题上的机制解释进行了研究,结果表明,中后期少量层次的激活对算术问题预测结果产生显著影响,模型对算术问题和事实知识的预测有不同的激活模式,并揭示了语言模型中涉及算术推理的特定组分。
May, 2023
该研究调查了语言模型在计算预测和问题解决能力方面的应用,以及其在进行算术计算和内部信息处理方面的推广能力。通过使用二进制加法和乘法作为测试样本,该研究成功地训练了一个轻量级语言模型,并进行了一系列实验以探究其外推能力和内部信息处理过程。研究结果支持了该假设,即语言模型在适当的内部表示映射后,计算发生在数值空间中,其工作类似于一个编码-回归-解码机器。
Aug, 2023
在这篇论文中,我们提出了一种名为SYRELM的架构,它通过采用符号求解器来将自然语言算术问题转化为形式化语言描述,然后通过一个小型冻结的LM生成包含自然语言描述的形式化表达式,并通过策略梯度强化学习训练适应的LM,从而实现合理的算术推理。该方法在准确性上取得了巨大的改进,并具有易于诊断、解释和大多数研究人员可以使用的特点。
Dec, 2023
大型语言模型在进行算术任务中对多位数乘法的可信准确预测能力较强,而对单位数乘法可信准确预测的能力较差,但在给出正确的高位数字作为条件下,后者任务的可信准确预测能力可以大幅提升。
Jun, 2024
通过研究神经元激活,我们探索了大型语言模型中算术推理能力的重要性,以及神经元激活对CoT提示的components的影响,并提出了一个基于GPT-4的方法来自动识别涉及算术推理的神经元。
Jun, 2024
本研究针对大语言模型(LLMs)在算术计算中的不可靠性问题,揭示了其计算过程中的特定机制。我们发现少量的注意力头在运算中起着关键作用,并通过对这些关键头进行选择性微调,显著提升了LLMs的数学计算能力,而非数学任务的表现不受影响。此工作为理解和提升LLMs的算术计算能力奠定了基础。
Sep, 2024
本研究针对大型语言模型(LLM)在简单的计数任务上表现不佳的问题进行了探讨,并设计了多种评估设置来验证现有的理论假设。研究发现,这一缺陷并非源于模型的固有缺陷,而是通过合理的推理过程可以有效改善LLM在计数任务中的表现,呼吁更多关注模型能力获取与评估的重要性。
Oct, 2024
本研究解决了大语言模型(LLM)中数学推理能力编码的不足,提出了数学神经外科(MathNeuro)的方法,通过仅使用前向传播来孤立数学特定参数。研究发现,通过剔除影响通用语言任务的重要参数,可以在不影响LLM的语言能力的情况下提高其数学性能,提升幅度达4-17%。
Oct, 2024
本研究比较了大型语言模型(LLMs)和神经符号方法在解决拉文的渐进矩阵(RPM)中的表现,该测试涉及数学规则的理解。尽管提供了结构化的表示,GPT-4和Llama-3 70B仍未达到完美准确率,分析表明LLM在理解和执行算术规则方面存在局限,而神经符号方法ARLC在此领域展现出几乎完美的准确率,提供了一种潜在的改进方案。
Dec, 2024