Jul, 2024

利用MLLM-NPU设备进行每秒1000标记的本地语言模型填充

TL;DR通过引入第一款有效利用设备上神经处理单元(NPU)的LLM推理系统mllm-NPU,该系统能够在设备上实现实用的大型语言模型,并在预填充阶段实现比竞争基准快22.4倍的速度和30.7倍的节能,为亿级模型(Qwen1.5-1.8B)实现每秒超过1,000个令牌的预填充,为实用的设备上LLM开辟了新的道路。