Feb, 2025
朝向经济高效的推理:使DeepSeek的多头潜在注意力在任何基于Transformer的LLM中都可行
Towards Economical Inference: Enabling DeepSeek's Multi-Head Latent
Attention in Any Transformer-based LLMs
TL;DR本文解决了深度学习模型中多头注意力(MHA)在推理时的高成本问题,提出了一种名为MHA2MLA的数据高效微调方法,旨在从MHA过渡到DeepSeek的多头潜在注意力(MLA)。研究表明,MHA2MLA能够通过仅使用0.3%到0.6%的一小部分数据恢复性能,同时大幅降低推理成本,并在实际应用中显著压缩KV缓存。