Sep, 2024

大语言模型在算术计算中的解读与改进

TL;DR本研究针对大语言模型(LLMs)在算术计算中的不可靠性问题,揭示了其计算过程中的特定机制。我们发现少量的注意力头在运算中起着关键作用,并通过对这些关键头进行选择性微调,显著提升了LLMs的数学计算能力,而非数学任务的表现不受影响。此工作为理解和提升LLMs的算术计算能力奠定了基础。