Oct, 2023

利用动态推理来开发 Transformer 激活稀疏性

TL;DR通过激活稀疏性和动态决定每个令牌的执行专家数量的方法,Dynamic Sparsified Transformer Inference(DSTI)能够显著降低 Transformer 模型的推理成本,而且对准确性几乎没有影响。