Jun, 2024

椭圆形注意力

TL;DR应用 Mahalanobis 距离计算注意力权重,将模型的特征空间在高上下文相关性方向进行拉伸,从而达到减少特征塌缩和提升模型鲁棒性的效果,验证了在多个实际任务中 Elliptical Attention 相对于基线 dot-product attention 和最先进的方法的优越性。