BriefGPT.xyz
Ask
alpha
关键词
pairwise dot-product self-attention
搜索结果 - 1
椭圆形注意力
应用 Mahalanobis 距离计算注意力权重,将模型的特征空间在高上下文相关性方向进行拉伸,从而达到减少特征塌缩和提升模型鲁棒性的效果,验证了在多个实际任务中 Elliptical Attention 相对于基线 dot-product
→
PDF
17 days ago
Prev
Next