Apr, 2019

利用稀疏变换器生成长序列

TL;DR本文介绍了一种称为 Sparse Transformers 的神经网络架构,该架构通过稀疏的注意力矩阵因式分解和其他一些技术,可以更有效地处理长序列等任务,并在 Enwik8,CIFAR-10,和 ImageNet-64 等基准数据集上创造出新的最优表现。