该研究旨在提高Transformers模型的生成推理效率,并通过多维分区技术、低级优化等策略获得较佳的推理效率和FLOPS利用率权衡,从而支持Token的大批量处理和长文本生成。
Nov, 2022
介绍了一种利用 Heavy Hitters 实现 KV cache 的新方法,提高了 Large Language Models 在长序列生成任务中的运行性能。
Jun, 2023
EdgeMoE是面向边缘设备的第一个在设备上推理引擎,针对稀疏LLMs的一种流行变体,它通过在存储层次结构中策略性地分割模型,实现了内存和计算效率的提升。它使用两种创新技术来降低专家I/O交换的开销,经过实证评估,与竞争性基线解决方案相比,EdgeMoE在内存节省和性能改进方面展现出显著优势。
Aug, 2023
Fiddler 是一种资源高效的推理引擎,基于 CPU-GPU 协同工作模式用于 Mixture-of-Experts 模型,可以在资源有限的设置中,在单一GPU上运行未压缩的 Mixtral-8x7B 模型,其参数超过 90GB,每秒生成超过3个标记,相较于现有方法获得数量级的提升。
Feb, 2024
通过跳过Transformer LLMs中后面的attention子层,可以有效地对大型语言模型进行压缩,提升性能并降低计算成本。在Llama 2 7B上观察到21%的生成速度提升,并出乎意料地改善了在多个常见基准测试中的性能。
Apr, 2024
提出了一种新的方法,只计算和缓存少量层的键值以大幅节省内存消耗并提高推理吞吐量。在大型语言模型上的实验证明,该方法的推理吞吐量比标准Transformer高26倍,同时在语言建模和下游任务中具有竞争性能。此外,该方法与现有的Transformer节省内存技术正交,因此可以轻松将它们与我们的模型集成,进一步提高推理效率。
May, 2024
我们介绍了一种支持传统推理的体系结构家族,它允许内存增长到一个有限但先验未知的界限,同时有效利用有限的资源进行推理。
Jul, 2024
本研究解决了大型语言模型推理性能中的超参数优化问题,通过分析20个大型语言模型在vLLM和HuggingFace管道中的表现。研究发现,超参数对推理吞吐量有显著影响,优化超参数可提升HuggingFace管道的吞吐量,平均分别提高9.16%和13.7%。
Aug, 2024
本研究解决了大型转换器模型在边缘设备上部署时内存消耗过大的问题。通过提出PIPELOAD这一创新的内存高效管道执行机制,论文实现了动态内存管理和并行模型加载,从而极大提升推理速度与降低内存消耗。实验结果表明,赫尔墨斯框架在多种模型中表现优异,有效提升了推理效率,具有显著的实际应用潜力。
Sep, 2024
本研究针对边缘设备在执行大规模模型推理时面临的计算能力、内存和带宽限制问题,提出了一种名为TPI-LLM的高效张量并行推理系统。该系统优化了内存调度和通信管理,使得70B规模的模型在内存受限的设备上顺畅运行,显著降低了推理延迟和内存占用。
Oct, 2024