Mar, 2024

逆向数字!算术学习中解码顺序的重要性

TL;DR最近的预训练研究表明,现代大型语言模型(LLMs)具备有效学习算术运算的能力。然而,尽管承认数字顺序在算术计算中的重要性,当前的方法主要依赖顺序、逐步的方法来教授LLMs算术,导致一个结论,即获得更好的性能需要细粒度的逐步操作。与传统方法不同,我们的工作引入了一种新颖的策略,不仅重新评估了数字顺序,优先考虑了最低有效位的输出,而且还采用了逐步的方法大幅减少了复杂性。我们在一系列全面的实验中开发并应用了这种方法。与先前的最先进方法相比,我们的研究结果显示了整体准确性的提升,同时在训练过程中仅使用了通常使用的三分之一的标记。为了方便复制和进一步研究,我们已公开提供了我们的代码和数据集,网址为https://anonymous.4open.science/r/RAIT-9FB7/。