ICLRFeb, 2022

cosFormer: 重新思考注意力机制中的 Softmax

TL;DR本文提出了一种线性可替换 softmax attention 的转换器 ——cosFormer,通过线性操作和余弦基础距离重新加权机制,保证了注意矩阵非负性和分布可以集中,并在语言建模和文本理解任务中取得了很好的效果。