大语言模型在算术计算中的解读与改进
本研究利用因果中介分析框架对大型语言模型在算术问题上的机制解释进行了研究,结果表明,中后期少量层次的激活对算术问题预测结果产生显著影响,模型对算术问题和事实知识的预测有不同的激活模式,并揭示了语言模型中涉及算术推理的特定组分。
May, 2023
该研究调查了语言模型在计算预测和问题解决能力方面的应用,以及其在进行算术计算和内部信息处理方面的推广能力。通过使用二进制加法和乘法作为测试样本,该研究成功地训练了一个轻量级语言模型,并进行了一系列实验以探究其外推能力和内部信息处理过程。研究结果支持了该假设,即语言模型在适当的内部表示映射后,计算发生在数值空间中,其工作类似于一个编码-回归-解码机器。
Aug, 2023
大型语言模型在进行算术任务中对多位数乘法的可信准确预测能力较强,而对单位数乘法可信准确预测的能力较差,但在给出正确的高位数字作为条件下,后者任务的可信准确预测能力可以大幅提升。
Jun, 2024
该研究表明,预训练的大型语言模型使用傅里叶特征进行数字加法,其中MLP层主要利用低频特征近似答案的幅度,而注意力层主要利用高频特征进行模块化加法(例如计算答案是奇数还是偶数)。预训练对此机制至关重要,从头开始训练的模型只利用低频特征,导致准确性较低。引入预训练的标记嵌入到随机初始化的模型中可以提高其性能。总的来说,我们的分析表明,适当的预训练表示(例如傅里叶特征)可以为Transformer学习算法任务的精确机制。
Jun, 2024
大型语言模型在各种任务中取得了令人印象深刻的表现,即使它们通常只是为了与用户流畅聊天而训练。本文系统地研究了流行的开源大型语言模型在不同符号推理任务上的能力和局限性。我们评估了Llama 2家族的三个模型在两个需要解决不同难度数学公式的数据集上。我们测试了一个通用的大型语言模型(Llama 2 Chat)以及两个专门设计用于解决数学问题的经过微调的Llama 2版本(MAmmoTH和MetaMath)。我们观察到,增加模型规模并在相关任务上进行微调可以显著提高性能。此外,通过使用细粒度的评估指标,我们发现这种性能提升主要出现在复杂度较低的数学公式上,尽管对于最大的经过微调的模型来说,这些公式通常仍然具有一定挑战性。
Jun, 2024
该研究解决了现有的大规模语言模型在数学推理任务中缺乏全面基准测试的问题。通过比较七种最先进的学习算法在五个广泛使用的数学数据集上的表现,研究揭示了大型基础模型在数学推理中的独立性能及其效率与效果之间的权衡。研究结果为教育等实际应用提供了重要的指导。
Aug, 2024
本研究探讨了大语言模型在数字操作中的表现差异,尤其是不同数字系统对其性能的影响。我们发现十进制系统在数据效率上优于其他数字系统,并揭示了模型在加法和乘法操作中的外推行为模式。这一发现为提升语言模型的数字处理能力提供了新的视角。
Sep, 2024
本研究解决了大型语言模型在数字运算准确性方面的不足,探讨了不同数字系统的缩放行为。研究表明,基于10的系统在数据效率上优于基于100或1000的系统,同时在加法和乘法的外推行为上揭示了新的模式,指出了模型学习机制的重要性。
Sep, 2024