ICLROct, 2022

一种内存高效 Transformer 的分组自注意机制

TL;DR提出了两个新的模块,Grouped Self-Attention 和 Compressed Cross-Attention,可在小超参数限制下实现序列长度为 $l$ 的 $O (l)$ 的计算空间和时间复杂度,并且可以捕捉局部的同时考虑全局信息,实验表明,预测时间序列数据时,我们提出的模型展示了降低计算复杂度的高效性,且性能可与现有方法相当甚至更好。