May, 2023

面向高效和可解释的自回归转换器的动态上下文剪枝

TL;DR本文提出一种采用动态修剪机制的 Autoregressive Transformers 方法,可以在保持模型表现力不变的同时,减少生成过程中上下文信息的存储和计算负担,有效地解决了推理成本过高的问题。实验证明,该方法可以高效地修剪 80% 的上下文信息,同时大幅提升推理吞吐量和节约存储空间。