通过关系元组、验证和动态反馈提高大型语言模型的算术推理能力
本文研究了大型预训练语言模型在符号操作任务上的能力,发现其对于简单的符号操作任务如复制、反转、加法等存在局限,并提出了基于位置标记,细粒度计算步骤以及可调用程序的方法来解决该问题。结果显示,这些方法均无法完全解决最简单的加法归纳问题。最后,介绍了一种带有辅导的LMs,可以在OOD和重复符号的情况下实现100%的准确性。
Aug, 2022
本研究使用大型语言模型(Codex)探讨将使用自然语言书写的数学(即定义,定理陈述和证明)转化为可以被程序检查正确性的形式语言的能力,并发现对于120个定理,Codex可以在本科水平上以近75%的准确率进行短数学陈述的形式化。同时在选择合适的输入和后处理策略下,Codex可以以自然语言形式翻译本科水平的13个定理的证明,这些具有两到三自然段长度的证明可以在12次中有至少一次完成翻译,这表明大型语言模型是完全或部分自动化形式化的有前景的途径。
Nov, 2022
本研究利用因果中介分析框架对大型语言模型在算术问题上的机制解释进行了研究,结果表明,中后期少量层次的激活对算术问题预测结果产生显著影响,模型对算术问题和事实知识的预测有不同的激活模式,并揭示了语言模型中涉及算术推理的特定组分。
May, 2023
该研究调查了语言模型在计算预测和问题解决能力方面的应用,以及其在进行算术计算和内部信息处理方面的推广能力。通过使用二进制加法和乘法作为测试样本,该研究成功地训练了一个轻量级语言模型,并进行了一系列实验以探究其外推能力和内部信息处理过程。研究结果支持了该假设,即语言模型在适当的内部表示映射后,计算发生在数值空间中,其工作类似于一个编码-回归-解码机器。
Aug, 2023
MATHSENSEI 是一个工具增强的大型语言模型,通过添加知识检索、程序执行和符号方程求解的工具,针对数学推理问题进行评估,表现出比 gpt-3.5-turbo 以及基于 chain-of-thought 的 MATH 数据集上准确率提高了 13.5%。同时我们还观察到,TALMs 在简单数学问题上的效果不如在复杂问题上的效果显著,且随着问题复杂程度和所需知识的增加而提高。
Feb, 2024
Mathador-LM是用于评估大型语言模型在数学推理上的新基准,结合了规则解释、规划和问题求解。该基准受Mathador游戏启发,其目标是使用给定的一组基本数字和简单的规则,通过基本算术运算达到目标数字。我们在领先的大型语言模型中展示了稳定的平均性能,并动态生成基准实例,以符合目标难度级别。因此,我们的基准缓解了测试集泄露到训练数据中的问题,这是经常破坏流行基准的一个问题。此外,我们对Mathador-LM中的开源和闭源最新大型语言模型进行了全面评估。我们的发现表明,现代模型在Mathador-LM上面临困难,得分显著低于平均5年级学生,这与它们在流行数学推理基准上的强大表现形成鲜明对比。
Jun, 2024
本研究解决了小型语言模型在算术推理任务中表现不佳的问题,主要由于自然语言形式的多样性引入了高歧义性。通过引入仅使用方程的推理格式,研究表明该方法显著提升了小型模型的算术推理能力,尤其是在像T5-Tiny这样的超小型模型中表现尤为突出。
Sep, 2024
本研究探讨了大语言模型在数字操作中的表现差异,尤其是不同数字系统对其性能的影响。我们发现十进制系统在数据效率上优于其他数字系统,并揭示了模型在加法和乘法操作中的外推行为模式。这一发现为提升语言模型的数字处理能力提供了新的视角。
Sep, 2024
本研究解决了大型语言模型在数字运算准确性方面的不足,探讨了不同数字系统的缩放行为。研究表明,基于10的系统在数据效率上优于基于100或1000的系统,同时在加法和乘法的外推行为上揭示了新的模式,指出了模型学习机制的重要性。
Sep, 2024