ACLMar, 2020

基于内容的稀疏注意力路由转换网络

TL;DR本研究提出了 Routing Transformer,它结合了疏密注意力和本地、时间疏松注意力的建模灵活性和效率。该模型具有基于在线 K 均值的稀疏路由模块,将注意力的总体复杂度从 $O (n^2d)$ 降至 $O (n^{1.5} d)$,并在 Wikitext-103 和 ImageNet-64 上表现出了良好的性能。