在nVIDIA H100 GPU上的保密计算:性能基准研究
在这篇研究论文中,我们提出了一个分散系统,利用具有隐私保护功能的消费级GPU在对大型语言模型进行预训练、推理和微调时发挥潜在的巨大作用。通过采用备用资源池实现计算提供者的动态加入和退出、基于硬件性能的任务调度、抽象化机器学习过程为有向无环图以实现模型和任务的通用性、抽象化中间表示和执行平台以确保各种设备和深度学习框架的兼容性等,我们的性能分析表明,50个RTX 3080 GPUs的吞吐量可与4个昂贵的H100 GPUs相媲美。
Sep, 2023
大型语言模型(LLMs)的计算和能源资源利用的推理性能进行了基准测试和初步分析,分析了不同规模的LLMa在两代热门GPU(NVIDIA V100和A100)以及两个数据集(Alpaca和GSM8K)上的推理性能与推理能源成本。
Oct, 2023
对于大型语言模型(LLMs)如GPT,提出了一种新的自适应推测解码策略,通过批处理和推测解码技术提高GPU硬件利用率,并在各种LLM模型和GPU架构上进行了广泛的特征分析,结果显示新方法能够达到与固定长度推测解码方案相等或更好的性能。
Oct, 2023
通过以较小的计算代价解决对大型语言模型(LLMs)进行量化和去量化操作时所面临的问题,我们提出了一种新的技术,并在不同模型和尺寸上进行了广泛实验,成功实现了每个权重的2.85位表示,模型的端到端加速比为1.74倍,同时降低了运行成本和硬件需求。
Nov, 2023
提议了一种高效的大型语言模型推理解决方案,通过简化模型结构、融合数据移动和逐元素操作、使用段落KV缓存策略等方法降低系统延迟并提高吞吐量,在Intel GPU上相对于标准HuggingFace实现,能够实现高达7倍的令牌延迟降低和27倍的吞吐量提升。
Dec, 2023
使用SpecExec方法,在消费级GPU上以每秒4-6个令牌(4位量化)或每秒2-3个令牌(16位权重)的速度对包含50多亿参数的大语言模型进行了推理。
Jun, 2024
通过学习稀疏压缩器和新颖的分层通信调度,我们提出了一个离线框架 LSP_Offload,能够在普通硬件上以接近原生速度进行大型语言模型的微调,从而在受限的内存条件下显著提高微调吞吐量并缩短微调时间。
Jun, 2024
本研究解决了大型语言模型(LLM)推理过程中的高能耗问题,提出了一个名为\textit{throttLL'eM}的新框架。该框架通过实例和GPU频率缩放实现节能,同时满足服务级目标。研究结果表明,该方法能将能耗降低多达43.8%,并在满足SLO的情况下显著提高能效。
Aug, 2024