Dec, 2023

通过正则化非局部泛函减轻变形器中的过度平滑

TL;DR通过引入新的正则化项,本研究提出了一种名为 NeuTRENO 的新型 transformer 模型,该模型能够减轻过度平滑 token 表示的问题,并在各种实际任务中实证证明了 NeuTRENO 相对于基线 transformers 和最先进方法的优势。