- CVPR连续学习中的自适应记忆回放
基于丰富的记忆资源和训练效率的重视,我们引入了一种适应性记忆回放的框架来解决不断学习问题,通过多臂赌博机问题的方法来动态选择训练数据,从而在保持高性能的同时减少了遗忘达 10%。
- 减少截断改善语言建模
通过我们提出的 Best-fit Packing 方法,我们能够在保持训练效率的同时,完全消除了不必要的截断,并显著提高了模型的性能。
- AntDT: 一种自适应的分布式培训框架用于领导者和延迟节点
该论文提出了一个统一的分布式训练框架 AntDT,用于自适应解决分布式训练中的延迟问题,并通过实验证明其在训练效率方面的优势。
- 大规模模型训练在异构集群中的调度和并行化的协同设计
Crius 是一个用于在异构集群中以自适应并行性高效调度多个大型模型的训练系统,它通过引入称为 Cell 的新调度粒度将数据并行性和张量并行性的探索空间缩小到最小,从而实现准确且低开销的性能估计。通过选择 Cell 作为调度选择,Crius - 分散式联邦学习中的初始化与拓扑效果
去中心化联邦学习,在保持训练数据本地化的同时,能够在网络上分布式设备上进行个体机器学习模型的协作训练。我们的研究强调了去中心化联邦学习的有效性受连接设备的网络拓扑结构的显著影响。通过简化的数值模型研究这些系统的早期行为,我们得出了一种改进的 - 专注于神经元:神经元级别的大语言模型有监督微调
大型语言模型 (LLMs) 由表现出各种行为和角色的神经元构成,随着模型规模的扩大,它们变得越来越多样化。研究发现,并非所有神经元在不同的数据集上都活跃,这种稀疏性与任务特定能力呈正相关,为模型剪枝和训练效率的进展提供了基础。传统的微调方法 - 推广去噪至非平衡结构改善等变原子力场
本文提出了一种使用去噪非平衡结构(DeNS)作为辅助任务来更好地利用训练数据和提高性能的方法,通过对非平衡结构添加噪声并预测噪声来实现对非平衡结构的去噪,进而改善在 OC20、OC22 和 MD17 数据集上的训练效率并取得了新的最先进结果 - PixArt-Σ: 4K 文字到图像生成的强弱训练扩散变压器
通过引入 PixArt-Sigma,一种 Diffusion Transformer 模型(DiT),本文能够直接生成 4K 分辨率的图像,相比于前作 PixArt-alpha,PixArt-Sigma 在图像质量方面有显著提高,与文本提示 - MegaScale:将大规模语言模型训练扩展至超过 10,000 个 GPU
我们介绍了 MegaScale 的设计、实现和工程经验,它是一个用于在超过 10,000 个 GPU 的规模上训练大型语言模型的生产系统。我们采用了一种全栈方法,通过共同设计算法和系统组件来解决训练效率和稳定性方面的挑战,并分享了我们在确保 - 树木种植的变压器:具有隐式句法监督的大型语言模型
提出了一种名为 Tree-Planted Transformers(TPT)的基于树状平衡方法的革新性模型,能够在没有显式句法监督的情况下通过树状结构反映自然语言的句法结构,并在句法评估中表现出色,为 Syntactic Large Lan - SPHINX-X:一个多模态大型语言模型系列的数据和参数扩展
我们提出了 SPHINX-X,这是一个建立在 SPHINX 基础上的广泛的多模态大型语言模型系列。通过去除冗余的视觉编码器、利用跳过标记绕过全填充子图像,以及简化多阶段训练为一阶段的所有合一范式,我们改进了 SPHINX 框架的架构和训练效 - 三元交互改进图变换器:基于三元图变换器的精确分子图学习
通过创新的三元关注机制和聚合机制,Triplet Graph Transformer (TGT) 在图中的两个相邻节点之间实现了直接通信,成功应用于分子性质预测,并通过三阶段训练过程和随机推理提高了训练效率和模型性能,在 PCQM4Mv2、 - 时间、内存和参数高效的视觉适应
我们提出了一个不需要反向传播梯度的适应方法,该方法在参数、训练时间和内存使用方面都非常高效,并且在 VTAB 基准测试中实现了极好的准确性 - 参数折衷,并展示了在视频分类等计算密集型任务中对于训练效率和可扩展性上的优越性。
- EE-Tuning: 基于经济且可伸缩的解决方案的早停调参大型语言模型
EE-Tuning 是一种轻量且经济的解决方案,用于训练 / 调整早停的大型语言模型 (LLMs)。与全参数预训练的常见方法相比,EE-Tuning 通过以参数有效的方式增加早停层来扩充任何预训练(可能是微调)的标准 LLM,从而大大减少计 - 为渐进式训练语言模型准备课程
Apollo 方法使用低价值优先采样(LVPS)训练不同深度的模型,并使用权重共享来促进高效的扩展,通过插值方法实现稳定的模型深度扩展,既提高了训练效率,也降低了时间、财务和环境成本。
- 始终稀疏训练:引导随机探索下的连接增长
现代人工神经网络的过多计算需求为可以运行它们的机器带来了限制。我们提出一种高效的、始终稀疏训练算法,具有一流的大规模和更稀疏模型的线性时间复杂度,并通过引导随机探索算法改善了先前稀疏训练方法的准确性。
- Unicron: 大规模经济化自愈 LLM 训练
Unicron 是一个用于大规模语言模型训练的高效自愈工作负载管理器,在一个 128-GPU 分布式集群上的实际部署中,它展示了与最先进方法相比高达 1.9 倍的训练效率提升,显著降低了故障恢复成本,并提高了大规模语言模型训练的可靠性。
- 联邦学习中效率受限的效用隐私双目标优化的理论分析
该研究论文系统地提出了一种效率受限的差分隐私联邦学习的双目标优化问题,并针对噪声水平(σ)、通信轮数(T)和样本比例(q)进行了深入的理论分析,通过大量实验验证了分析结果的有效性和实用性,并为差分隐私联邦学习的低成本参数设计提供了宝贵的指导 - 逻辑与学习之桥:一种增强神经模型推理能力的神经符号方法 (ASPER)
该研究通过融合神经网络和符号推理的神经符号学习方法,以提高神经模型在推理任务上的性能,通过整合 ASP 求解器和领域特定专业知识来训练浅层人工神经网络(ANN)以解决数独难题,有效提高了训练效率,超参数调优无需 12 个数独练习即可显著改善 - 通过多阶段框架和定制的多解码器结构提高扩散模型的效率
通过多阶段框架和多解码器 U-net 架构,我们提出了一种增强扩散模型训练和采样效率的方案,通过定制每个时间步长的不同参数,同时保留所有时间步长共享的通用参数,有效地分配计算资源并减轻阶段间干扰。