BriefGPT.xyz
大模型
Ask
alpha
关键词
gpu resources
搜索结果 - 4
FlexLLM: 用于共同服务大型语言模型推理和参数高效调优的系统
我们提出了 FlexLLM,这是第一个能够在同一次迭代中处理推理和参数高效微调请求的系统,通过协同服务的方法,利用共享的 GPU 资源来同时运行这两个任务,FlexLLM 的合作服务方法减少了激活 GPU 内存开销高达 8 倍,并将微调的整
→
PDF
4 months ago
Atom:高效准确的 LLM 服务器的低比特量化
Atom 是一种低位量化方法,通过使用低位算子和低位量化显著提高 serving 吞吐量以及减少内存消耗,同时保持相同的延迟目标。
PDF
8 months ago
在资源受限环境下利用知识蒸馏提升高效深度强化学习
通过挖掘深度强化学习(Deep Reinforcement Learning,DRL)与知识蒸馏(Knowledge Distillation,KD)相结合的潜力,本文通过蒸馏各种 DRL 算法并研究其蒸馏效果的方式,旨在减少深度模型的计算
→
PDF
9 months ago
有限资源下的大型语言模型全参数微调
提出了一种名为 LOw-Memory Optimization(LOMO)的新优化器,该优化器将梯度计算和参数更新融合为一步,可以在单台机器上通过充分利用记忆方案使大型语言模型(LLMs)进行全参数微调的训练过程中降低内存使用,并成功地在一
→
PDF
a year ago
Prev
Next