May, 2023
面向高效和可解释的自回归转换器的动态上下文剪枝
Dynamic Context Pruning for Efficient and Interpretable Autoregressive Transformers
Sotiris Anagnostidis, Dario Pavllo, Luca Biggio, Lorenzo Noci, Aurelien Lucchi...
TL;DR本文提出一种采用动态修剪机制的 Autoregressive Transformers 方法,可以在保持模型表现力不变的同时,减少生成过程中上下文信息的存储和计算负担,有效地解决了推理成本过高的问题。实验证明,该方法可以高效地修剪 80% 的上下文信息,同时大幅提升推理吞吐量和节约存储空间。