BriefGPT.xyz
Ask
alpha
关键词
collinear constrained attention
搜索结果 - 1
通过共线受限注意力解决 Transformer 的头痛问题
我们的研究发现了 Transformer 模型中一个被忽视的异常行为,称之为 “Transformers 的头痛”,并引入了一种名为 Collinear Constrained Attention (CoCA) 的新型自注意结构,以解决该问
→
PDF
10 months ago
Prev
Next