Aug, 2024

PackMamba:高效处理Mamba训练中的可变长度序列

TL;DR本研究针对传统Transformer模型在处理长序列时面临的计算负担与内存问题,提出了PackMamba,高效处理可变长度序列。通过分析Mamba中瓶颈操作符的表现,我们对并行操作符进行了修改,从而显著提高了处理速度,实验结果显示在NVIDIA A100 GPU上,处理1.4B和2.8B模型的速度分别提高了3.06倍和2.62倍。