May, 2024

大型时间序列模型的尺度定律

TL;DR基于大规模语言模型的缩放定律已经在如何训练规模更大的模型以获得可预测的性能提升上提供了有用的指导。该研究表明,基于解码器的时间序列变换模型也展示了与语言模型类似的缩放行为,对于广泛范围内的架构细节(纵横比和头数)几乎没有影响。我们汇集了大量的异构时间序列数据进行训练,并首次建立了参数数量、数据集大小和训练计算量与其之间的幂律缩放关系,涵盖了五个数量级。