Jan, 2024

Transformer过度平滑的真相

TL;DRTransformer模型在不同领域取得了巨大的成功,但近期的研究发现,Transformer本质上是低通滤波器,会逐渐过度平滑输入,从而降低其表达能力。然而,根据本研究,Transformer是否过度平滑取决于其更新方程的特征频谱,因此提出了一种简洁的参数化方法,能够控制Transformer的频谱,避免过度平滑。相比于近期的解决方法,该方法提高了泛化性能,即使在更多层次、更少数据点和受损数据的训练情况下仍然有效。