Dec, 2023
互联网上大规模语言模型的分布式推理和微调
Distributed Inference and Fine-tuning of Large Language Models Over The Internet
Alexander Borzunov, Max Ryabinin, Artem Chumachenko, Dmitry Baranchuk, Tim Dettmers...
TL;DR本研究探讨了大型语言模型在成本高效的推理和微调方面的方法,并比较了本地和分布式策略。我们开发了特殊的容错推理算法和负载平衡协议,用于自动分配设备以最大化系统总吞吐量,并展示了这些算法在 Petals 中的应用,该分散式系统能够以比离线处理快 10 倍的速度运行大型语言模型。我们通过模拟条件和跨越两大洲的真实场景对系统性能进行了评估。