Jul, 2021
Combiner: 具有稀疏计算成本的全关注力变换器
Combiner: Full Attention Transformer with Sparse Computation Cost
Hongyu Ren, Hanjun Dai, Zihang Dai, Mengjiao Yang, Jure Leskovec...
TL;DR提出了一种名为 Combiner 的替代 transformers 中的 attention layers 的方法,其通过利用结构化分解的条件分布来近似自我关注机制,实现了每个关注头的完全关注能力,同时保持低计算和内存复杂性。在自回归和双向序列任务上的实验评估表明,该方法有效性高,可以产生多个图像和文本建模任务的最新技术结果。