Dec, 2020

亚线性内存:如何使 Performers SLiM

TL;DR在深度学习方面,使用 Transformer 架构的计算成本很高,使用近期提出的各种线性自我关注机制来解决,观察到 Performers 具有极大的计算灵活性,并且可以在训练期间仅占用 O(1)的内存,为去中心化和民主化的深度学习做出贡献。