语言模型对数字的理解,至少在某种程度上
该研究调查了语言模型在计算预测和问题解决能力方面的应用,以及其在进行算术计算和内部信息处理方面的推广能力。通过使用二进制加法和乘法作为测试样本,该研究成功地训练了一个轻量级语言模型,并进行了一系列实验以探究其外推能力和内部信息处理过程。研究结果支持了该假设,即语言模型在适当的内部表示映射后,计算发生在数值空间中,其工作类似于一个编码 - 回归 - 解码机器。
Aug, 2023
大型语言模型在进行算术任务中对多位数乘法的可信准确预测能力较强,而对单位数乘法可信准确预测的能力较差,但在给出正确的高位数字作为条件下,后者任务的可信准确预测能力可以大幅提升。
Jun, 2024
自然语言处理和大型语言模型在教育和指导方法领域取得了快速进展,特别在解决数学问题的应用方面,其中 MAmmoTH-13B 表现出了最高的能力水平,成为解决 NCERT 数学问题的可靠基准。
Apr, 2024
提出一种信息论干预的新型框架,以克服向语言模型注入非语言技能时发生的语言技能灾难性遗忘,从而使语言模型在保留语言能力的同时也具备数学推理的能力。
Nov, 2022
数学推理是评估人类智能基本认知能力的基石。该研究调查了大型语言模型在解决数学问题方面的真正进展、障碍、数学问题类型和相关数据集、解决数学问题的 LLM 技术范围、影响 LLMs 解决数学问题的因素和问题,并提供了这一快速发展领域中的现状、成就和未来挑战的整体观点。
Jan, 2024
探索用语言模型建模数字的不同策略,提出使用连续概率密度函数来建模开放词汇中数字的新型神经架构,并在临床和科学数据集上进行评估表明使用分层模型可显著提高困惑度指标,连续概率密度函数模型相较于其他策略可分别将平均绝对百分比误差降低 18%和 54%。
May, 2018
本研究提出基于 DistilBERT、XLM 和 BERT 的多语言探究任务,探讨自然语言数字系统中数值数据的组合推理证据,并发现这些预训练模型嵌入中编码的信息足以支持合法性判断,但一般不适用于值比较。
Oct, 2020
LLaMA-2 7B 模型通过简单的方法扩展数据样本,证明了其出色的数学能力及可靠性,适用于 GSM8K 和 MATH 基准测试,并提供了关于不同推理复杂性和错误类型的扩展行为的见解。
Mar, 2024