在nVIDIA H100 GPU上的保密计算：性能基准研究

Sep, 2024

在nVIDIA H100 GPU上的保密计算：性能基准研究

Confidential Computing on nVIDIA H100 GPU: A Performance Benchmark Study

Jianwei Zhu, Hang Yin, Shunfan Zhou

TL;DR本研究解决了启用可信执行环境（TEE）对NVIDIA H100 GPU在大型语言模型（LLM）推理任务中性能的影响。研究表明，尽管GPU内部的计算开销较小，但总体性能罚款主要来自于通过PCIe的数据传输；绝大多数典型LLM查询的开销保持在5%以下。

Abstract

This report evaluates the performance impact of enabling Trusted Execution Environments (TEE) on NVIDIA H100 GPUs for large language model (LLM) inference tasks. We benchmark the overhead introduced by TEE mode a

发现论文，激发创造

FusionAI: 基于大规模消费级GPU的分布式训练和部署LLMs

在这篇研究论文中，我们提出了一个分散系统，利用具有隐私保护功能的消费级GPU在对大型语言模型进行预训练、推理和微调时发挥潜在的巨大作用。通过采用备用资源池实现计算提供者的动态加入和退出、基于硬件性能的任务调度、抽象化机器学习过程为有向无环图以实现模型和任务的通用性、抽象化中间表示和执行平台以确保各种设备和深度学习框架的兼容性等，我们的性能分析表明，50个RTX 3080 GPUs的吞吐量可与4个昂贵的H100 GPUs相媲美。

Sep, 2023

从文字到瓦特：大型语言模型推理的能源成本基准测试

大型语言模型（LLMs）的计算和能源资源利用的推理性能进行了基准测试和初步分析，分析了不同规模的LLMa在两代热门GPU（NVIDIA V100和A100）以及两个数据集（Alpaca和GSM8K）上的推理性能与推理能源成本。

Oct, 2023

大型语言模型在服务中采用预测解码和批处理的协同效应

对于大型语言模型（LLMs）如GPT，提出了一种新的自适应推测解码策略，通过批处理和推测解码技术提高GPU硬件利用率，并在各种LLM模型和GPU架构上进行了广泛的特征分析，结果显示新方法能够达到与固定长度推测解码方案相等或更好的性能。

Oct, 2023

在GPU上实现快速2位硬件离线量化低内存映射：内存对齐、稀疏离群值和异步解量化

通过以较小的计算代价解决对大型语言模型（LLMs）进行量化和去量化操作时所面临的问题，我们提出了一种新的技术，并在不同模型和尺寸上进行了广泛实验，成功实现了每个权重的2.85位表示，模型的端到端加速比为1.74倍，同时降低了运行成本和硬件需求。

Nov, 2023

大型语言模型推理的硬件评估框架

通过LLMCompass硬件评估框架，本研究提出了性能优化和成本效益的硬件设计选择，以实现大规模语言模型的民主化。

Dec, 2023

基于英特尔GPU的高效LLM推理解决方案

提议了一种高效的大型语言模型推理解决方案，通过简化模型结构、融合数据移动和逐元素操作、使用段落KV缓存策略等方法降低系统延迟并提高吞吐量，在Intel GPU上相对于标准HuggingFace实现，能够实现高达7倍的令牌延迟降低和27倍的吞吐量提升。

Dec, 2023

SpecExec: 消费设备上基于大规模并行推测解码的交互式 LLM 推理

使用SpecExec方法，在消费级GPU上以每秒4-6个令牌（4位量化）或每秒2-3个令牌（16位权重）的速度对包含50多亿参数的大语言模型进行了推理。

Jun, 2024

基于学习的子空间投影器的通用GPU上超参微调LLM的实用卸载

通过学习稀疏压缩器和新颖的分层通信调度，我们提出了一个离线框架 LSP_Offload，能够在普通硬件上以接近原生速度进行大型语言模型的微调，从而在受限的内存条件下显著提高微调吞吐量并缩短微调时间。

Jun, 2024

关于在CPU上对大型语言模型进行推断性能优化的研究

该研究介绍了一种在CPU上加速大型语言模型的易于部署推理性能优化解决方案，并针对常用模型进行了定制优化。

Jul, 2024

面向服务级目标的GPU频率缩放用于高效的LLM推理服务

本研究解决了大型语言模型（LLM）推理过程中的高能耗问题，提出了一个名为\textit{throttLL'eM}的新框架。该框架通过实例和GPU频率缩放实现节能，同时满足服务级目标。研究结果表明，该方法能将能耗降低多达43.8%，并在满足SLO的情况下显著提高能效。

Aug, 2024