Jul, 2023

双向关注作为连续单词专家的混合

TL;DR通过重新参数化,将多层多头的双向注意力视为堆叠的 MoE 和混合的 MoE,从而揭示了双向注意力中使用 MoE 的独特之处,并说明了其在处理异构数据方面的实际有效性。此外,统计视角还揭示了双向注意力的词嵌入中线性类比的限制条件。