Mar, 2024

Keyformer: 通过关键词令牌选择减少键值缓存以提高生成推理的效率

TL;DRKeyformer 利用新颖的评分函数,通过仅保留关键令牌来减少 Key-Value 缓存大小和内存带宽使用,从而降低推理延迟 2.1 倍,提高标记生成吞吐量 2.4 倍,并保持模型准确性。