Oct, 2023

SEA:具有估计注意力掩码的稀疏线性注意力

TL;DRSEA 提出了稀疏线性注意力机制,通过基于核的线性注意力估计注意力矩阵,然后使用 top-k 选择生成对完整注意力矩阵的稀疏近似,以解决 transformers 在处理长序列时的复杂性问题,并保持可解释的注意力矩阵和利用知识蒸馏来降低预训练 transformers 的复杂性。