Jul, 2024

超越KV缓存:用于高效LLMs的共享注意力

TL;DR通过直接在多个层之间共享计算的注意力权重,利用传统注意力机制带来的计算和存储资源消耗问题,这篇论文介绍了一种新型的共享注意力(Shared Attention)机制,实现在资源有限环境下提高大型语言模型(LLMs)的效率。