Sep, 2024

检索注意力:通过向量检索加速长上下文大语言模型推理

TL;DR本研究解决了长上下文大语言模型推理中的注意力计算时间复杂度高和GPU内存消耗大的问题。提出了一个名为检索注意力的方法,该方法利用动态稀疏性和近似最近邻搜索优化KV向量检索,显著减少了推理成本并降低了内存占用,成功在保持模型准确性的同时实现了高效推理。