Jan, 2024
AutoChunk: 自动激活块用于高效存储长序列推理
AutoChunk: Automated Activation Chunk for Memory-Efficient Long Sequence
Inference
TL;DR通过自动和自适应的编译器系统,我们提出了AutoChunk方法,该方法通过块策略有效减少了长序列推理中的激活内存,证明了AutoChunk可以在保持速度损失在10%以内的同时,减少80%的激活内存,并将最大序列长度提高3.2倍至11.7倍,大大优于现有方法。