Jan, 2025

FlashInfer:高效且可定制的LLM推理服务注意力引擎

TL;DR本研究解决了大语言模型(LLM)推理中GPU注意力内核的效率与灵活性问题。提出的FlashInfer引擎通过块稀疏格式和可组合格式优化内存访问,并利用即时编译提供可定制的注意力模板。实验结果表明,FlashInfer在不同推理场景中显著提升了内核性能,减少了延迟,具有重要的应用潜力。