Feb, 2024

基于案例或规则:Transformer 模型如何进行数学计算?

TL;DR尽管现代大型语言模型在各种复杂任务中表现出色,但它们仍然难以处理一些对人类来说很简单直观的数学问题,如加法。我们通过精心设计的干预实验,确认变压器在数学问题中执行基于案例的推理,无论是否使用 scratchpad。为了解决这些问题,我们提出了一种规则遵循微调 (Rule-Following Fine-Tuning) 技术,通过在输入中提供明确的规则,指导变压器逐步背诵和遵循这些规则。通过规则遵循微调,我们成功地使在 1-5 位数加法上微调的大型语言模型能够以超过 95% 的准确率推广到 12 位数加法,比使用 scratchpad 提高了 40% 以上。这一显著的改进表明,教导大型语言模型明确使用规则有助于它们学习基于规则的推理,并在长度方面更好地实现推广。