大规模云数据库的实时工作负载模式分析
对大型语言模型进行了深入研究,调查了与以往任务特定的深度学习工作负载之间的差异,探索了资源利用模式,并确定了各种作业故障的影响。通过故障容忍的预训练和评估的解耦调度,提出了优化针对大型语言模型系统的潜在机会。
Mar, 2024
本研究通过对数据访问和计算模式的分析,以深度优化算法和硬件,提出了两种利用 PIM 范式进行机器学习和混合事务 / 分析处理的数据中心架构。
May, 2022
在这篇论文中,作者描述了从关系数据库管理系统(RDBMS)到分布式大数据分析平台的转变,这个平台适用于大规模机器学习和数据挖掘,利用通信服务提供商 (CSPs) 的大规模交易数据资产以及数据分析技术,用于服务个性化、预测建模和产品优化,而这种数据分析技术是实现对数据的利用和挖掘的关键。
Feb, 2015
本文介绍了一种基于深度循环神经网络技术和 Apache Spark 框架,实现了对流量异常检测的网络安全解决方案,具有更高的检测率和更低的误报率,可以检测集体和上下文安全攻击。该方法合并了语言处理、上下文分析、分布式深度学习、大数据和流量分析的概念,并在 MAWI 数据集上进行实验,结果表明,该方法不仅优于签名 IDS 和传统异常 IDS,在点异常检测方面表现更好,并有望在未来进一步证明其可靠性。
Sep, 2022
多模态大型语言模型的云设备协作持续适应框架,通过利用云端大规模语言模型的强大能力,提升了压缩的设备部署的语言模型的性能,并且在多项实验中展现了优于以往知识蒸馏和设备云协作方法的优越性。
Dec, 2023
减少大型语言模型在数据中心的能耗是一个关键挑战。本文介绍了一种混合型数据中心模型,使用基于成本的调度框架来动态分配不同能效和计算能力的硬件加速器上的大型语言模型任务,以降低能量消耗。我们的工作负载感知策略根据查询中输入和输出标记的数量决定任务是在能效处理器上还是在高性能 GPU 上处理,我们的分析发现,与不考虑工作负载的基准相比,这种混合策略可以将 CPU+GPU 能耗降低 7.5%。
Apr, 2024
现代大规模科学发现需要跨多个计算设施进行多学科合作,其中包括高性能计算(HPC)机器和边缘到云的连续体。综合数据分析在科学发现中起着至关重要的作用,特别是在当前人工智能时代,通过支持负责任的 AI 开发、FAIR、可重复性和用户调节。然而,科学的异构性提出了一些挑战,例如处理多个支持工具、跨设施环境和高效的 HPC 执行。在数据可观察性、适配器系统设计和溯源的基础上,我们提出了 MIDA:一种轻量级运行时多工作流集成数据分析方法。MIDA 定义了针对各种并行系统和机器学习工具的数据可观察性策略和适应性方法。通过可观察性,在后台截取数据流,无需仪器,同时将领域、溯源和遥测数据以运行时的方式整合到一个统一的数据库中,以准备好用户调节查询。我们进行了实验,展示了从 Dask 和 MLFlow 集成数据的端到端多工作流分析,用于材料科学中的真实分布式深度学习用例,在多个环境中平行运行,最多 276 个 GPU。我们展示了在 Summit 超级计算机上,在 1,680 个 CPU 核心上运行高达 100,000 个任务的接近零开销。
Aug, 2023
大规模数据集上的机器学习(ML)训练是一项非常昂贵和耗时的工作负载,处理器中心化体系结构(例如,CPU,GPU)常用于现代 ML 训练工作负载,但受制于数据移动瓶颈,即不断访问训练数据集。因此,处理器中心化系统面临着性能下降和高能耗的问题。内存中处理(PIM)是缓解数据移动瓶颈的有希望的解决方案,将计算机制放置在或靠近内存中。我们的目标是了解流行的分布式优化算法在现实世界的 PIM 架构上加速数据密集型 ML 训练工作负载的能力和特性。结果表明,现代通用 PIM 体系结构可以成为许多内存受限的 ML 训练工作负载与最先进的 CPU 和 GPU 的可行替代方案,当 PIM 硬件本地支持操作和数据类型时。此外,仔细选择最适合 PIM 的优化算法以及对于许多数据密集型 ML 训练工作负荷而言,当节点数增加时,与常见观点相反,现代 PIM 架构不能实现线性扩展。为了促进未来的研究,我们打算开源我们的完整代码库。
Apr, 2024
本文介绍了 Rafiki 系统,它是一个能够在大数据分析、机器学习、云平台中为训练和推断提供服务的系统,其提供了分布式超参数调整和在线组合模型的功能,以实现低延迟和高准确度的平衡,在实验结果中表现出了高效、有效、可扩展和易用的特点。
Apr, 2018