May, 2023

稳定各向异性正则化

TL;DR本文提出一种新的正则化方法 I-STAR,该方法可以在训练过程中增加或减少嵌入空间中的等向性水平,并发现在大多数任务和模型中减少等向性可以改善性能。