BriefGPT.xyz
Ask
alpha
关键词
unbatched decoding
搜索结果 - 1
缩放 Transformers 中的稀疏已足够
本研究提出了一种用于构建下一代 Transformer 模型的方法,即利用稀疏层进行有效缩放和高效执行非批量解码。结果表明,这种模型在拥有相同参数数量的情况下,可以获得与标准 Transformer 相同的效果,并且在长文本摘要方面表现优异
→
PDF
3 years ago
Prev
Next