Dec, 2023
通过正则化非局部泛函减轻变形器中的过度平滑
Mitigating Over-smoothing in Transformers via Regularized Nonlocal Functionals
Tam Nguyen, Tan M. Nguyen, Richard G. Baraniuk
TL;DR通过引入新的正则化项,本研究提出了一种名为 NeuTRENO 的新型 transformer 模型,该模型能够减轻过度平滑 token 表示的问题,并在各种实际任务中实证证明了 NeuTRENO 相对于基线 transformers 和最先进方法的优势。