G-Meta: 大规模推荐系统的 GPU 集群分布式元学习

Jan, 2024

G-Meta: 大规模推荐系统的 GPU 集群分布式元学习

G-Meta: Distributed Meta Learning in GPU Clusters for Large-Scale Recommender Systems

Youshao Xiao, Shangchun Zhao, Zhenglei Zhou, Zhaoxin Huan, Lin Ju...

TL;DR提供了一种针对基于元学习的 DLRM 模型的高性能框架，名为 G-Meta，在 GPU 集群上实现大规模训练，通过数据并行和模型并行来实现高速分布式训练，并提出了 Meta-IO 管道来解决 I/O 瓶颈，具有显著的训练速度和统计性能改进。

Abstract

Recently, a new paradigm, meta learning, has been widely applied to Deep Learning Recommendation Models (DLRM) and significantly improves statistical performance, especially in cold-start scenarios. However, the existing systems are not tailored for →

meta learning dlrm models gpu cluster distributed training g-meta

发现论文，激发创造

多 GPU 平台机器学习训练的通用性能建模

通过数据分配感知性能模型和通信集合的数据移动预测，我们可以在多个 GPU 平台上训练机器学习工作负载，并且能够准确预测迭代训练时间，扩展到其他类型的机器学习工作负载，例如基于 Transformer 的自然语言处理模型，并能够生成洞察力，如快速选择最快的嵌入表分片配置。

Apr, 2024

p-Meta: 面向设备端的深度模型自适应

该研究提出了一种新的元学习方法 p-Meta，以实现对 IoT 设备上模型的内存和数据的有效适应，提高准确性，优于现有少样本适应方法。

Jun, 2022

Holmes: 面向集群间具有异构 NIC 环境的分布式训练

Holmes 是一个专门为 LLMs 设计的训练框架，通过巧妙构建数据和模型并行策略，在异构 NIC 环境下实现了可扩展性，并在大多数情况下达到接近 RDMA 网络性能的学习效率，同时与其他主流 LLM 框架无缝集成。

Dec, 2023

深度学习推荐模型快速可扩展训练的软件硬件协同设计

本文介绍了使用 PyTorch 和 Zion platform 的高性能可扩展软件堆栈的 SW/HW 共同设计方案，用于高效训练大规模 DLRMs，实现了可分层分区和高性能的数据通信等多项优化，从而在之前系统的基础上将训练时间提速了 40 倍。

Apr, 2021

高效可拓展的高斯过程元学习

在这篇论文中，我们开发了一种可扩展的基于高斯过程的模块化元学习模型 ScaML-GP，其中的核心贡献是一个经过精心设计的多任务核函数，它实现了层次化训练和任务的可扩展性。通过在元数据上对 ScaML-GP 进行条件化，我们揭示了其模块化特性，得到一个结合了元任务高斯过程后验的测试任务先验。在合成和真实世界的元学习实验中，我们证明了 ScaML-GP 可以在少量和大量元任务中高效学习。

Dec, 2023

LiMAML: 通过元学习个性化深度推荐模型

通过深度神经网络和元学习算法，该研究论文提出了一种个性化推荐系统的创新解决方案，能够根据最新的用户交互信号进行模型更新并在在线推荐系统上高效部署，从而实现高度个性化的 AI 模型的部署和对应业务指标的显著改进。

Feb, 2024

使用 Megatron-LM 在 GPU 集群上高效训练大规模语言模型

本论文提出了一种新的并行计算方法（并行、管道、数据并行），并探讨了不同并行计算方法之间的权衡取舍，可使模型达到拥有万亿参数的级别，提高了 10％的吞吐量，是现有方法的可比内存占用率。在 3072 个 GPU 上完成了 1 万亿参数模型的训练，每个 GPU 的吞吐量达到了理论峰值的 52％。

Apr, 2021

高效通信与隐私保护的分散化元学习

在这篇论文中，我们提出了一种名为 LoDMeta（本地分布式元学习）的方法，利用本地辅助优化参数和模型参数的随机扰动来降低通信成本并提高数据隐私保护。理论结果和实证结果都表明，LoDMeta 与集中式元学习算法相比具有相似的元学习准确性，但不需要从每个客户端收集数据，并且能够更好地保护每个客户端的数据隐私。

Jun, 2024

FusionAI: 基于大规模消费级 GPU 的分布式训练和部署 LLMs

在这篇研究论文中，我们提出了一个分散系统，利用具有隐私保护功能的消费级 GPU 在对大型语言模型进行预训练、推理和微调时发挥潜在的巨大作用。通过采用备用资源池实现计算提供者的动态加入和退出、基于硬件性能的任务调度、抽象化机器学习过程为有向无环图以实现模型和任务的通用性、抽象化中间表示和执行平台以确保各种设备和深度学习框架的兼容性等，我们的性能分析表明，50 个 RTX 3080 GPUs 的吞吐量可与 4 个昂贵的 H100 GPUs 相媲美。

Sep, 2023

具有快速收敛和高效通信的联邦元学习

本文提出了一个联邦元学习框架 FedMeta，其中共享参数化算法而非全局模型以解决分布式移动设备网络中训练机器学习模型的统计和系统挑战，并在数据集上进行广泛实证研究，结果显示 FedMeta 相比于联邦平均 FedAvg 能够在 2.82-4.33 倍的通信成本和更快的收敛速度上取得 3.23%-14.84% 的准确性提升，并对用户隐私进行保护。

Feb, 2018