vTrain: 评估成本效益和计算优化的大型语言模型训练的仿真框架
ProTrain 通过协调内存、计算和 IO,采用分块模型状态管理和块状激活管理,在不改变训练算法的情况下,通过内存感知的运行时分析器智能平衡内存使用和性能,相较于其他最佳训练系统,ProTrain 提高了 1.43 倍至 2.71 倍的训练吞吐量。
Jun, 2024
本论文展示了使用 AWS Trainium 和 Neuron Distributed Training Library 成功预训练了 HLAT 等具有高性能和高效性的最新大型语言模型。
Apr, 2024
利用强大的分析、规划和决策能力,以及四个代理的协作,我们提出了一种 TrainerAgent 系统,它由任务、数据、模型和服务器代理组成,通过综合地从数据和模型的角度对用户定义的任务、输入数据和需求进行优化,从而获得满足要求的模型,并将这些模型作为在线服务部署,相较于传统模型开发,我们的系统以增加效率和质量的方式取得了显著进展。
Nov, 2023
本文介绍一种训练框架,可对机器学习进行科学计算,并通过缓存数据来减轻同时生成数据的时间延迟。实验表明,该框架在多参数 Lorenz 吸引子的测试中成功缓解了数据偏差,从而可以更好地捕捉系统的复杂混沌动态。
Nov, 2022
研究项目侧重于并行和分布式机器学习算法的开发,特别是优化数据处理和预训练一组包括 5 个编码解码器 LLM(从 5.8 亿到 130 亿个参数不等)。我们进行了一项细致的研究,以量化三种机器学习并行性方法之间的关系,特别是探索了微软 DeepSpeed Zero Redundancy Optimizer (ZeRO) 阶段。
Oct, 2023
本文提出了 “SimVLG”—— 一种用于预训练计算密集型视觉语言生成模型的简化框架,利用冻结的预训练大型语言模型 (LLMs)。我们的单阶段单损失框架通过在训练过程中逐渐合并相似的视觉标记来绕过计算密集型的初始训练阶段,从而实现了快速收敛而不损失性能。实验证明,我们的方法可以将视觉语言模型的训练速度提高 5 倍,而整体性能几乎没有明显影响。此外,我们展示了我们的模型只需原数据的十分之一即可达到与当前视觉语言模型相当的性能。最后,我们通过一种新颖的软性注意力时序标记合并模块展示了如何轻松将我们的图像 - 文本模型应用于视频 - 语言生成任务。
Oct, 2023
研究了大型语言模型在多个人工智能加速器和图形处理器上的性能特性,并评估了这些模型的性能,考虑到序列长度、扩展行为、稀疏性和梯度积累步骤的敏感性。
Oct, 2023
本论文提出了一种新的并行计算方法(并行、管道、数据并行),并探讨了不同并行计算方法之间的权衡取舍,可使模型达到拥有万亿参数的级别,提高了 10%的吞吐量,是现有方法的可比内存占用率。在 3072 个 GPU 上完成了 1 万亿参数模型的训练,每个 GPU 的吞吐量达到了理论峰值的 52%。
Apr, 2021
使用 Voice2Action 框架,在虚拟现实环境中通过分析声音信号和文本命令,进行分级处理和执行任务,以提高效率。
Sep, 2023
本文是第一篇关于利用大规模预训练语言模型(LLMs)进行科学模拟的研究,聚焦于四个建模和模拟任务,分别评估 LLMs 的预期优势和局限性,并为模型构建者提供实用指南,包括解释概念模型结构、总结模拟输出、通过文本传达模拟可视化洞见以及解释模拟错误并提供解决方案。
Jun, 2023