Jul, 2024

ThinK: 通过查询驱动的剪枝实现更薄的键缓存

TL;DR本研究针对大型语言模型在处理长序列时内存和计算成本高的问题,通过探讨键值缓存中的冗余,提出了名为ThinK的查询依赖性缓存剪枝方法。该方法在选择性剪除不重要的通道的同时,保持或提高了模型的准确性,并将内存成本降低超过20%。