语言模型对数字的理解,至少在某种程度上
本文提出了一种利用锚定数字来诱发和利用预先训练的语言模型潜在的数字推理知识的新方法,通过在复杂的数字上应用简单的锚定数字隐含的推理表达式,以显式地得到相应的答案并训练语言模型的数字推理能力。实验结果表明该方法显著提高了现有语言模型的数字推理能力。
Oct, 2022
该研究调查了语言模型在计算预测和问题解决能力方面的应用,以及其在进行算术计算和内部信息处理方面的推广能力。通过使用二进制加法和乘法作为测试样本,该研究成功地训练了一个轻量级语言模型,并进行了一系列实验以探究其外推能力和内部信息处理过程。研究结果支持了该假设,即语言模型在适当的内部表示映射后,计算发生在数值空间中,其工作类似于一个编码-回归-解码机器。
Aug, 2023
通过调整数字的表示方式,使用NumeroLogic格式,我们为语言模型处理数字数据和执行算术运算的困难提供了解决方法,并改进了自然语言理解性能。
Mar, 2024
大型语言模型在进行算术任务中对多位数乘法的可信准确预测能力较强,而对单位数乘法可信准确预测的能力较差,但在给出正确的高位数字作为条件下,后者任务的可信准确预测能力可以大幅提升。
Jun, 2024
本研究针对大语言模型(LLMs)在算术计算中的不可靠性问题,揭示了其计算过程中的特定机制。我们发现少量的注意力头在运算中起着关键作用,并通过对这些关键头进行选择性微调,显著提升了LLMs的数学计算能力,而非数学任务的表现不受影响。此工作为理解和提升LLMs的算术计算能力奠定了基础。
Sep, 2024
本研究探讨了大语言模型在数字操作中的表现差异,尤其是不同数字系统对其性能的影响。我们发现十进制系统在数据效率上优于其他数字系统,并揭示了模型在加法和乘法操作中的外推行为模式。这一发现为提升语言模型的数字处理能力提供了新的视角。
Sep, 2024
本研究解决了大型语言模型在数字运算准确性方面的不足,探讨了不同数字系统的缩放行为。研究表明,基于10的系统在数据效率上优于基于100或1000的系统,同时在加法和乘法的外推行为上揭示了新的模式,指出了模型学习机制的重要性。
Sep, 2024
本研究解决了大型语言模型在处理数字问题时常出现错误的现象。我们通过实验表明,语言模型内部以十进制的每个数字的循环表示法来表示数字,而非简单的数值表示。这一发现有助于理解模型在数字推理任务中出现的错误模式,并为未来研究语言模型中的数字机制提供基础。
Oct, 2024
本研究解决了语言模型在数字生成和数量推理(特别是算术)方面的不足。我们提出了两种数字 token 损失函数,以克服传统交叉熵损失的局限性,这些损失函数通过度量生成的数字 token 与真实值之间的距离,显著提高了模型的数字准确性,尤其是在标准 T5 模型上表现突出。
Nov, 2024