Feb, 2020

稀疏Sinkhorn注意力

TL;DR本文提出了稀疏Sinkhorn注意力机制,可以通过一种新的可微分排序方法来学习生成序列的置换,并用其计算局部窗口内的准全局注意力来提高注意力模块的存储效率,同时提出了新颖的算法创新,其中包括Causal Sinkhorn平衡和SortCut动态序列截断方法,实验结果表明,该方法在算法排序、语言建模、像素级图像生成和文本分类等方面与传统注意力和基于Sparse Transformers的高效Transformer模型相比具有竞争力且性能更优。