互联网上大规模语言模型的分布式推理和微调

Dec, 2023

互联网上大规模语言模型的分布式推理和微调

Distributed Inference and Fine-tuning of Large Language Models Over The Internet

Alexander Borzunov, Max Ryabinin, Artem Chumachenko, Dmitry Baranchuk, Tim Dettmers...

TL;DR本研究探讨了大型语言模型在成本高效的推理和微调方面的方法，并比较了本地和分布式策略。我们开发了特殊的容错推理算法和负载平衡协议，用于自动分配设备以最大化系统总吞吐量，并展示了这些算法在 Petals 中的应用，该分散式系统能够以比离线处理快 10 倍的速度运行大型语言模型。我们通过模拟条件和跨越两大洲的真实场景对系统性能进行了评估。

Abstract

large language models (LLMs) are useful in many NLP tasks and become more capable with size, with the best open-source models having over 50 billion parameters. However, using these 50B+ models requires high-end hardware, making them inaccessible to most researchers. In this work, we i

large language models cost-efficient inference distributed strategies decentralized system fault-tolerant inference algorithms

发现论文，激发创造

大型语言模型的训练、微调和推理的运行时性能剖析

通过针对大型语言模型的预训练、微调和运行时性能进行细致的分析和基准测试，本研究旨在为用户和研究人员提供对于配置选择以及优化性能的不同方法、框架和硬件平台的理解。

Nov, 2023

在最边缘上的 LLM 联邦微调：好，坏，丑陋

通过硬件为中心的方法，本研究探讨了如何将大型语言模型 (LLMs) 应用于现代边缘计算系统，并使用联邦学习 (FL) 对 FLAN-T5 模型家族进行微调，以进行文本摘要任务。通过与数据中心 GPU 的比较，我们评估了边缘计算系统的当前能力以及它们在 LLM FL 工作负载方面的潜力，并展示了在边缘端实现更大计算效率的潜力与下一步的发展方向。

Oct, 2023

FusionAI: 基于大规模消费级 GPU 的分布式训练和部署 LLMs

在这篇研究论文中，我们提出了一个分散系统，利用具有隐私保护功能的消费级 GPU 在对大型语言模型进行预训练、推理和微调时发挥潜在的巨大作用。通过采用备用资源池实现计算提供者的动态加入和退出、基于硬件性能的任务调度、抽象化机器学习过程为有向无环图以实现模型和任务的通用性、抽象化中间表示和执行平台以确保各种设备和深度学习框架的兼容性等，我们的性能分析表明，50 个 RTX 3080 GPUs 的吞吐量可与 4 个昂贵的 H100 GPUs 相媲美。

Sep, 2023

跨移动设备进行百亿规模语言模型的联邦微调

FwdLLM 是一种创新的 FL 协议，通过无需执行误差反向传播训练方法的方式，在手机设备上实现了更好的内存效率和时间效率，具有比传统方法更快的收敛速度和更小的内存占用。

Aug, 2023

从文字到瓦特：大型语言模型推理的能源成本基准测试

大型语言模型（LLMs）的计算和能源资源利用的推理性能进行了基准测试和初步分析，分析了不同规模的 LLMa 在两代热门 GPU（NVIDIA V100 和 A100）以及两个数据集（Alpaca 和 GSM8K）上的推理性能与推理能源成本。

Oct, 2023

大型语言模型网络适应

利用大型语言模型 (LLM) 的适应性，以提供更好的性能和更强的泛化能力，本文首次研究了将 LLM 应用于网络的可持续设计理念，通过 NetLLM 框架实现了高效的 LLM 适应网络问题，并展示了它在不同网络任务中的有效性。

Feb, 2024

针对大型语言模型的前沿分布式训练优化

通过实验结果和超参数调整，我们提出了一套用于大型语言模型的分布式训练策略。

Dec, 2023

基于需求定制的 LMLs 服务

通过引入层级分布式的大型语言模型（LLM）架构，提高 LLM 在异构计算平台上的可访问性和可部署性，实现按需访问和定制化服务，并在用户与应用需求之间取得最佳权衡，推动人工智能技术的进步。

Jan, 2024

ServerlessLLM: 针对大型语言模型的增强本地化无服务器推理

本文介绍了 ServerlessLLM，一种用于大型语言模型的增强本地化服务器推理系统。ServerlessLLM 通过三个主要贡献实现了高效的检查点加载和推理：(i) 通过新颖的加载优化检查点格式设计和高效的多层检查点加载系统实现快速检查点加载；(ii) 基于本地化的推理和实时迁移，以在保持正在进行的推理的低延迟的同时有效实现本地化的服务器分配；以及 (iii) 考虑本地化的服务器分配，使 ServerlessLLM 能够评估集群中每个服务器的状态，并有效地调度模型的启动时间以发挥本地检查点放置的优势。我们进行的广泛实验，包括微基准测试和真实世界的追踪，表明当运行不同的语言模型推理工作负载时，ServerlessLLM 的延迟性能超过了现有技术系统 10-200 倍。

Jan, 2024

在 CPU 上高效 LLM 推断

本论文提出了一种有效的方法，可以更高效地部署大型语言模型，通过自动 INT4 纯权重量化流和设计具有高度优化内核的特殊 LLM 运行时，在 CPU 上加速 LLM 推理，展示了该方法对包括 Llama2、Llama、GPT-NeoX 等流行 LLM 的普适性，并显示了在 CPU 上的极高推理效率。

Nov, 2023