Nov, 2021

缩放 Transformers 中的稀疏已足够

TL;DR本研究提出了一种用于构建下一代 Transformer 模型的方法,即利用稀疏层进行有效缩放和高效执行非批量解码。结果表明,这种模型在拥有相同参数数量的情况下,可以获得与标准 Transformer 相同的效果,并且在长文本摘要方面表现优异。