Mar, 2025

子空间正交的键值缓存量化

TL;DR本文针对现有键值缓存量化方法中的量化误差累积问题提出了SQuat方法,该方法通过构建一个由查询张量生成的子空间来捕捉关键任务相关信息。在量化过程中,它确保量化后的键与原始键之间的差异与子空间正交,从而减小量化误差对注意力机制输出的影响。实验结果表明,SQuat在减少内存占用和提升处理能力方面表现显著优于现有算法。