Jun, 2023

H$_2$O: 大语言模型高效生成推理的重要串行预测器

TL;DR介绍了一种利用 Heavy Hitters 实现 KV cache 的新方法,提高了 Large Language Models 在长序列生成任务中的运行性能。