研究项目侧重于并行和分布式机器学习算法的开发,特别是优化数据处理和预训练一组包括 5 个编码解码器 LLM(从 5.8 亿到 130 亿个参数不等)。我们进行了一项细致的研究,以量化三种机器学习并行性方法之间的关系,特别是探索了微软 DeepSpeed Zero Redundancy Optimizer (ZeRO) 阶段。
Oct, 2023
大型语言模型的推出带来了自然语言处理领域的重大变革,本文调查了与转换器模型有关的各种 CIM 构架以及它们如何解决现代人工智能计算系统面临的挑战。
Jun, 2024
本文研究了神经网络训练所需内存的实际需求量,并系统评估了四种降低训练内存需求的标准技术。研究结果表明,通过选择适当的技术组合,可以在保持较少损失精度的前提下,显著减少训练神经网络所需的内存。
Apr, 2019
学习内存(LIM)是一种最近提出的克服训练机器学习系统中基本内存瓶颈的范式。本文从理论上推导了使用不同的 LIM 方法来训练 AI 系统时能量耗散的新的理论下界,并扩展了这些限制,考虑了训练所使用的浮点运算数量、AI 模型的大小和训练参数的精度。
Feb, 2024
该论文探讨了卷积神经网络在边缘人工智能中的计算要求和存储带宽之间的关系,研究了模型复杂度增加对计算需求和存储访问模式的影响,并提供了计算需求和存储带宽要求之间权衡的比较分析,为设计有效架构和提升边缘设备上的卷积神经网络性能的硬件加速器提供了洞见。
Sep, 2023
我们提出了一种基于分析框架的方法,量化突出了训练大型语言模型的进入障碍,并指出了减轻这些障碍的机会。
Apr, 2024
利用深度学习解决内存性能瓶颈问题,采用神经网络进行内存预取,取得更高的准确率和召回率。
Mar, 2018
提出了一种新颖的内存数据排列策略,通过硬件加速器的内核大小来有效减小芯片外数据访问,特别对于基于广义矩阵乘法(GEMM)的终端到终端变压器模型推理尤为有益。本研究通过在单核和多核系统中实现和评估提出的加速器驱动的数据排列方法,证明了该方法能够实现高达 2.8 倍的速度提升。
Dec, 2023
通过优化平台内存层次结构,设计 MTrainS 在深度学习推荐模型 (DLRM) 中降低节点数目,优化内存容量,提高训练效率,从而减少功耗和训练成本。
Apr, 2023
本文提出了一种基于内部工作记忆模块的决策制定代理,可以通过存储、混合和检索信息来改善其在不同下游任务中的训练效率和泛化能力,并进一步证明记忆微调可以增强所提出架构的适应性。
May, 2023