Mar, 2024

ALISA: 加速大型语言模型推理的稀疏感知键值缓存

TL;DRALISA 是一种算法 - 系统共同设计解决方案,旨在解决 KV 缓存所带来的挑战。通过引入高度稀疏的注意力层和优化缓存与重新计算之间的权衡,ALISA 在有限资源的系统中最大化整体性能。