大语言模型在算术计算中的解读与改进

Sep, 2024

大语言模型在算术计算中的解读与改进

Interpreting and Improving Large Language Models in Arithmetic Calculation

Wei Zhang, Chaoqun Wan, Yonggang Zhang, Yiu-ming Cheung, Xinmei Tian...

TL;DR本研究针对大语言模型（LLMs）在算术计算中的不可靠性问题，揭示了其计算过程中的特定机制。我们发现少量的注意力头在运算中起着关键作用，并通过对这些关键头进行选择性微调，显著提升了LLMs的数学计算能力，而非数学任务的表现不受影响。此工作为理解和提升LLMs的算术计算能力奠定了基础。

Abstract

Large Language Models (LLMs) have demonstrated remarkable potential across numerous applications and have shown an emergent ability to tackle complex reasoning tasks, such as mathematical computations. However, even for the simplest arithmetic calculations, the intrinsic mechanisms beh

发现论文，激发创造

面向多步推理的小语言模型特化

揭示了将大规模语言模型进行特化，使其在特定任务上具有相对较强的表现的可能性，并使用多步数学推理作为测试，通过设计优化措施来提高其广义性能。

Jan, 2023

使用因果中介分析方法理解语言模型中的算术推理

本研究利用因果中介分析框架对大型语言模型在算术问题上的机制解释进行了研究，结果表明，中后期少量层次的激活对算术问题预测结果产生显著影响，模型对算术问题和事实知识的预测有不同的激活模式，并揭示了语言模型中涉及算术推理的特定组分。

May, 2023

语言模型的数值计算能力：从记忆到计算

该研究调查了语言模型在计算预测和问题解决能力方面的应用，以及其在进行算术计算和内部信息处理方面的推广能力。通过使用二进制加法和乘法作为测试样本，该研究成功地训练了一个轻量级语言模型，并进行了一系列实验以探究其外推能力和内部信息处理过程。研究结果支持了该假设，即语言模型在适当的内部表示映射后，计算发生在数值空间中，其工作类似于一个编码-回归-解码机器。

Aug, 2023

大型语言模型的符号能力研究

研究证实，大型语言模型在处理基于符号的任务时面临符号复杂度上升的挑战，强调了需要专门的训练、内存和架构调整以提高它们在符号推理任务中的熟练度。

May, 2024

语言模型轻松完成难算术任务，但几乎不能完成简单算术任务

大型语言模型在进行算术任务中对多位数乘法的可信准确预测能力较强，而对单位数乘法可信准确预测的能力较差，但在给出正确的高位数字作为条件下，后者任务的可信准确预测能力可以大幅提升。

Jun, 2024

预训练的大型语言模型使用傅里叶特征计算加法

该研究表明，预训练的大型语言模型使用傅里叶特征进行数字加法，其中MLP层主要利用低频特征近似答案的幅度，而注意力层主要利用高频特征进行模块化加法（例如计算答案是奇数还是偶数）。预训练对此机制至关重要，从头开始训练的模型只利用低频特征，导致准确性较低。引入预训练的标记嵌入到随机初始化的模型中可以提高其性能。总的来说，我们的分析表明，适当的预训练表示（例如傅里叶特征）可以为Transformer学习算法任务的精确机制。

Jun, 2024

评估拉马大型语言模型的新兴符号推理能力

大型语言模型在各种任务中取得了令人印象深刻的表现，即使它们通常只是为了与用户流畅聊天而训练。本文系统地研究了流行的开源大型语言模型在不同符号推理任务上的能力和局限性。我们评估了Llama 2家族的三个模型在两个需要解决不同难度数学公式的数据集上。我们测试了一个通用的大型语言模型（Llama 2 Chat）以及两个专门设计用于解决数学问题的经过微调的Llama 2版本（MAmmoTH和MetaMath）。我们观察到，增加模型规模并在相关任务上进行微调可以显著提高性能。此外，通过使用细粒度的评估指标，我们发现这种性能提升主要出现在复杂度较低的数学公式上，尽管对于最大的经过微调的模型来说，这些公式通常仍然具有一定挑战性。

Jun, 2024

大规模语言模型在数学推理任务中的基准测试

该研究解决了现有的大规模语言模型在数学推理任务中缺乏全面基准测试的问题。通过比较七种最先进的学习算法在五个广泛使用的数学数据集上的表现，研究揭示了大型基础模型在数学推理中的独立性能及其效率与效果之间的权衡。研究结果为教育等实际应用提供了重要的指导。

Aug, 2024

大语言模型对于数字系统的扩展行为：以Pythia为例

本研究探讨了大语言模型在数字操作中的表现差异，尤其是不同数字系统对其性能的影响。我们发现十进制系统在数据效率上优于其他数字系统，并揭示了模型在加法和乘法操作中的外推行为模式。这一发现为提升语言模型的数字处理能力提供了新的视角。

Sep, 2024

关于数字系统的大型语言模型的缩放行为：以Pythia为例

本研究解决了大型语言模型在数字运算准确性方面的不足，探讨了不同数字系统的缩放行为。研究表明，基于10的系统在数据效率上优于基于100或1000的系统，同时在加法和乘法的外推行为上揭示了新的模式，指出了模型学习机制的重要性。

Sep, 2024