Jun, 2021

基于 Top-k 注意力的内存高效 Transformer

TL;DR本文介绍了一种简单而高效的用于 vanilla attention 的逼近算法,基于对查询进行分块的计算,在多个数据集上的评估表明其准确性接近于 vanilla attention。