低资源边缘设备高效服务70B规模大模型的TPI-LLM
Flash-LLM是一种针对大型生成模型的低成本高效大规模推断框架,通过优化稀疏矩阵乘法,在高性能Tensor Cores上实现了显著的性能提升。
Sep, 2023
本论文提出了一种有效的方法,可以更高效地部署大型语言模型,通过自动INT4纯权重量化流和设计具有高度优化内核的特殊LLM运行时,在CPU上加速LLM推理,展示了该方法对包括Llama2、Llama、GPT-NeoX等流行LLM的普适性,并显示了在CPU上的极高推理效率。
Nov, 2023
提议了一种高效的大型语言模型推理解决方案,通过简化模型结构、融合数据移动和逐元素操作、使用段落KV缓存策略等方法降低系统延迟并提高吞吐量,在Intel GPU上相对于标准HuggingFace实现,能够实现高达7倍的令牌延迟降低和27倍的吞吐量提升。
Dec, 2023
T-MAC是一种基于查找表(LUT)的创新方法,用于在CPU上进行高效的低位LLM(即量化权重LLM)推断,并且在同时消除乘法和减少加法的要求方面支持mpGEMM。
Jun, 2024
本研究解决了现有大语言模型(LLM)推理服务仿真基础设施缺乏动态工作负载变化建模及算法冗余利用的问题。提出的LLMServingSim工具通过迭代粒度模拟LLM服务,显著提高了仿真速度,并展示出与真实系统性能行为接近的结果。此研究为未来LLM推理服务系统设计提供了有效的仿真支持。
Aug, 2024
本研究解决了低比特大语言模型推理中混合精度矩阵乘法(mpGEMM)需求的问题,提出了一种基于查找表(LUT)的方法。通过优化的软件硬件协同设计—LUT张量核心,不仅改进了表的预计算和存储效率,还显著提升了计算密度和能效,为低比特LMM的执行提供了强有力的支持。
Aug, 2024
本研究解决了大型转换器模型在边缘设备上部署时内存消耗过大的问题。通过提出PIPELOAD这一创新的内存高效管道执行机制,论文实现了动态内存管理和并行模型加载,从而极大提升推理速度与降低内存消耗。实验结果表明,赫尔墨斯框架在多种模型中表现优异,有效提升了推理效率,具有显著的实际应用潜力。
Sep, 2024
本研究解决了边缘设备上大型模型推理的内存挑战,提出了PIPELOAD这一新颖的内存高效流水线执行机制。通过动态内存管理和并行模型加载,Hermes框架在推理速度上提升至4.24倍,同时内存消耗降低86.7%。
Sep, 2024
本研究针对现有技术无法有效处理千万级上下文推理请求的问题,提出了三项创新方法:自适应分块以降低预填充开销、序列管道并行性以减少首个令牌时间,以及KV缓存并行性以最小化令牌间时间。这些方法结合形成了一种三维并行策略,使得Mnemosyne能够高效地支持上下文长度高达1000万的推理请求。
Sep, 2024