Feb, 2024

APIServe:大型语言模型推理的高效API支持

TL;DRAPIServe是第一个针对API增强型LLM的推理框架,可以减少由API调用引起的GPU资源浪费,提高整体服务吞吐量1.6倍,并比现有的LLM推理系统每秒完成2倍更多的请求。