G-Meta: 大规模推荐系统的 GPU 集群分布式元学习
通过数据分配感知性能模型和通信集合的数据移动预测,我们可以在多个 GPU 平台上训练机器学习工作负载,并且能够准确预测迭代训练时间,扩展到其他类型的机器学习工作负载,例如基于 Transformer 的自然语言处理模型,并能够生成洞察力,如快速选择最快的嵌入表分片配置。
Apr, 2024
Holmes 是一个专门为 LLMs 设计的训练框架,通过巧妙构建数据和模型并行策略,在异构 NIC 环境下实现了可扩展性,并在大多数情况下达到接近 RDMA 网络性能的学习效率,同时与其他主流 LLM 框架无缝集成。
Dec, 2023
本文介绍了使用 PyTorch 和 Zion platform 的高性能可扩展软件堆栈的 SW/HW 共同设计方案,用于高效训练大规模 DLRMs,实现了可分层分区和高性能的数据通信等多项优化,从而在之前系统的基础上将训练时间提速了 40 倍。
Apr, 2021
在这篇论文中,我们开发了一种可扩展的基于高斯过程的模块化元学习模型 ScaML-GP,其中的核心贡献是一个经过精心设计的多任务核函数,它实现了层次化训练和任务的可扩展性。通过在元数据上对 ScaML-GP 进行条件化,我们揭示了其模块化特性,得到一个结合了元任务高斯过程后验的测试任务先验。在合成和真实世界的元学习实验中,我们证明了 ScaML-GP 可以在少量和大量元任务中高效学习。
Dec, 2023
通过深度神经网络和元学习算法,该研究论文提出了一种个性化推荐系统的创新解决方案,能够根据最新的用户交互信号进行模型更新并在在线推荐系统上高效部署,从而实现高度个性化的 AI 模型的部署和对应业务指标的显著改进。
Feb, 2024
本论文提出了一种新的并行计算方法(并行、管道、数据并行),并探讨了不同并行计算方法之间的权衡取舍,可使模型达到拥有万亿参数的级别,提高了 10%的吞吐量,是现有方法的可比内存占用率。在 3072 个 GPU 上完成了 1 万亿参数模型的训练,每个 GPU 的吞吐量达到了理论峰值的 52%。
Apr, 2021
在这篇论文中,我们提出了一种名为 LoDMeta(本地分布式元学习)的方法,利用本地辅助优化参数和模型参数的随机扰动来降低通信成本并提高数据隐私保护。理论结果和实证结果都表明,LoDMeta 与集中式元学习算法相比具有相似的元学习准确性,但不需要从每个客户端收集数据,并且能够更好地保护每个客户端的数据隐私。
Jun, 2024
在这篇研究论文中,我们提出了一个分散系统,利用具有隐私保护功能的消费级 GPU 在对大型语言模型进行预训练、推理和微调时发挥潜在的巨大作用。通过采用备用资源池实现计算提供者的动态加入和退出、基于硬件性能的任务调度、抽象化机器学习过程为有向无环图以实现模型和任务的通用性、抽象化中间表示和执行平台以确保各种设备和深度学习框架的兼容性等,我们的性能分析表明,50 个 RTX 3080 GPUs 的吞吐量可与 4 个昂贵的 H100 GPUs 相媲美。
Sep, 2023
本文提出了一个联邦元学习框架 FedMeta,其中共享参数化算法而非全局模型以解决分布式移动设备网络中训练机器学习模型的统计和系统挑战,并在数据集上进行广泛实证研究,结果显示 FedMeta 相比于联邦平均 FedAvg 能够在 2.82-4.33 倍的通信成本和更快的收敛速度上取得 3.23%-14.84% 的准确性提升,并对用户隐私进行保护。
Feb, 2018