BriefGPT.xyz
Ask
alpha
关键词
shallow lightweight transformer model
搜索结果 - 1
利用敏锐感知最小化和通道关注解锁 Transformers 在时间序列预测中的潜力
通过研究一个玩具线性预测问题,我们发现变压器尽管具有高表达能力,但不能收敛于真实解,这是由于其注意力机制的低泛化能力。基于这一发现,我们提出了一种浅层轻量级变压器模型,在利用尖锐感知优化时能够成功逃离糟糕的局部最小值。我们通过实验证明这一结
→
PDF
5 months ago
Prev
Next