Apr, 2024

预打包:大语言模型快速预填和增加吞吐量的简单方法

TL;DR使用 Prepacking 方法优化 transformer-based 大型语言模型的 prefilling 计算,通过将不同长度的输入 prompt 组合成一个序列,并使用 bin-packing 算法将多个序列打包成一个紧凑的批次,从而减少冗余计算和提高内存效率。