Oct, 2023
高效远程Transformer:你需要参与更多,但不一定是每一层
Efficient Long-Range Transformers: You Need to Attend More, but Not
Necessarily at Every Layer
TL;DR提出了一种名为MASFormer的变种Transformer模型,它通过混合的注意力机制在处理长序列数据时既能捕捉到长距离依赖关系,又能在其余层使用稀疏注意力提高计算效率。实验结果表明,该模型在自然语言建模和生成任务中能够达到与全注意力的Transformer模型相媲美的性能,同时显著降低计算成本(多达75%),并对长序列数据的持续训练和序列长度对下游生成任务的影响进行了研究。