Jun, 2024

MLKV:用于内存高效 Transformer 解码的多层键值头

TL;DR通过多层键 - 值共享方式,将键值缓存扩展到变压器层,进一步降低内存使用量,提高变压器模型在大规模场景中的效率。