Sep, 2023

通过共线受限注意力解决 Transformer 的头痛问题

TL;DR我们的研究发现了 Transformer 模型中一个被忽视的异常行为,称之为 “Transformers 的头痛”,并引入了一种名为 Collinear Constrained Attention (CoCA) 的新型自注意结构,以解决该问题,并实现优秀的外推性能,同时提高了 CoCA 的计算和空间效率。