Jan, 2024

AutoChunk: 自动激活块用于高效存储长序列推理

TL;DR通过自动和自适应的编译器系统,我们提出了AutoChunk方法,该方法通过块策略有效减少了长序列推理中的激活内存,证明了AutoChunk可以在保持速度损失在10%以内的同时,减少80%的激活内存,并将最大序列长度提高3.2倍至11.7倍,大大优于现有方法。