Jul, 2021

Combiner: 具有稀疏计算成本的全关注力变换器

TL;DR提出了一种名为 Combiner 的替代 transformers 中的 attention layers 的方法,其通过利用结构化分解的条件分布来近似自我关注机制,实现了每个关注头的完全关注能力,同时保持低计算和内存复杂性。在自回归和双向序列任务上的实验评估表明,该方法有效性高,可以产生多个图像和文本建模任务的最新技术结果。