Feb, 2024

利用敏锐感知最小化和通道关注解锁 Transformers 在时间序列预测中的潜力

TL;DR通过研究一个玩具线性预测问题,我们发现变压器尽管具有高表达能力,但不能收敛于真实解,这是由于其注意力机制的低泛化能力。基于这一发现,我们提出了一种浅层轻量级变压器模型,在利用尖锐感知优化时能够成功逃离糟糕的局部最小值。我们通过实验证明这一结果在所有常用的多变量时间序列数据集上成立,并且 SAMformer 平均超过当前最先进模型 TSMixer 14.33%,同时参数数量仅为其四分之一。