Feb, 2023

面向百万级依赖建模的长序列模型的统一视图

TL;DR本文探讨了 Transformers 在长序列建模中的应用,并提出了一种处理百万级依赖关系的机器学习系统,其中的分布式多头注意力机制可提高 40 倍的计算效率。