Sep, 2024

关于数字系统的大型语言模型的缩放行为:以Pythia为例

TL;DR本研究解决了大型语言模型在数字运算准确性方面的不足,探讨了不同数字系统的缩放行为。研究表明,基于10的系统在数据效率上优于基于100或1000的系统,同时在加法和乘法的外推行为上揭示了新的模式,指出了模型学习机制的重要性。