Jun, 2024

QuickLLaMA: 大型语言模型的查询感知推理加速

TL;DR通过引入针对大型语言模型(LLMs)的查询感知推理(Q-LLM)系统,我们解决了在序列中捕捉长距离依赖以实现深层语义理解的问题,并且在 LLaMA3 和 Mistral 基准上得到了显著的性能提升。