- Unicron: 大规模经济化自愈 LLM 训练
Unicron 是一个用于大规模语言模型训练的高效自愈工作负载管理器,在一个 128-GPU 分布式集群上的实际部署中,它展示了与最先进方法相比高达 1.9 倍的训练效率提升,显著降低了故障恢复成本,并提高了大规模语言模型训练的可靠性。
- 联邦学习中效率受限的效用隐私双目标优化的理论分析
该研究论文系统地提出了一种效率受限的差分隐私联邦学习的双目标优化问题,并针对噪声水平(σ)、通信轮数(T)和样本比例(q)进行了深入的理论分析,通过大量实验验证了分析结果的有效性和实用性,并为差分隐私联邦学习的低成本参数设计提供了宝贵的指导 - 逻辑与学习之桥:一种增强神经模型推理能力的神经符号方法 (ASPER)
该研究通过融合神经网络和符号推理的神经符号学习方法,以提高神经模型在推理任务上的性能,通过整合 ASP 求解器和领域特定专业知识来训练浅层人工神经网络(ANN)以解决数独难题,有效提高了训练效率,超参数调优无需 12 个数独练习即可显著改善 - 通过多阶段框架和定制的多解码器结构提高扩散模型的效率
通过多阶段框架和多解码器 U-net 架构,我们提出了一种增强扩散模型训练和采样效率的方案,通过定制每个时间步长的不同参数,同时保留所有时间步长共享的通用参数,有效地分配计算资源并减轻阶段间干扰。
- EMNLP无监督机器翻译的快速反向翻译
利用 Transformer 和反向翻译算法,以及引入 Quick Back-Translation (QBT) 的改进方法,提高无监督机器翻译的数据通量、利用率及训练效率。
- EMNLP高效语言数据抽样的规模化影响分数
应用影响力分数评估语言分类任务,通过修剪训练数据来量化准确性变化,并提供基于分数采样的建议,以提高准确性和训练效率。
- 直接关注损失调整的优先经验回放
通过并行自注意力网络,直接量化改变的分布程度以准确补偿误差,并设计优化样本筛选标准的优先 - 鼓励机制来提高训练效率。与基于值函数、基于策略梯度和多智能体强化学习算法相结合验证 DALAP 的有效性和普适性,多组对比实验表明 DALAP 在 - 子网络集成
本论文介绍了一种低成本框架用于构建子网络集合,通过从已训练的母模型中采样、扰动和优化子网络的方式形成子网络集合,研究发现该方法可以显著提高训练效率、参数利用以及泛化性能,同时最小化计算成本,通过利用深度神经网络的潜力来构建更好的系统。
- 用于 Transformer 神经网络高效训练和推理的位置一致性输入压缩
使用输入压缩和位置一致性(ICPC)的新数据增强方法,对 Transformer 进行了改进,以提高泛化能力和训练效率,并减轻过拟合。ICPC 通过在每个时期对每个训练样本应用不同级别的压缩,实现了更快的训练,同时通过提供不同的压缩级别来减 - ADAPTER-RL:使用强化学习对任意代理进行自适应
深度强化学习代理人在适应训练分布之外的任务时面临着过拟合、灾难性遗忘和样本效率问题。本文探讨了适配器在强化学习中的应用,提出了一种创新的适应策略,在 nanoRTS 环境中实验,提高了训练效率并改进了基础代理人,同时兼容预训练神经网络和基于 - 用于基于记忆的 Transformer 的内存高效随机方法
我们提出了一种新颖的两阶段训练机制和一种新颖的正则化技术,以提高基于内存的 Transformer 的训练效率,该模型通常用于解决长程背景问题。我们在字符级语言模型任务上展示了我们的结果模型 Skip Cross-head Transfor - 大规模分布式模型训练的高效并行化布局
通过对大型语言模型的多种训练配置进行全面的消融研究,我们总结出几个关键建议,以实现最高效的训练,例如,我们发现使用微批量大小为 1 通常能实现最高效的训练布局。较大的微批量大小需要激活检查点或更高程度的模型并行性,并且还会导致更大的管道延迟 - MNN:混合最近邻算法用于自监督学习
通过引入最近邻样本和图像混合操作,该研究提出了一种名为 MNN 的简单自监督学习框架,优化了最近邻样本对正样本语义的影响,展示了在四个基准数据集上出色的泛化性能和训练效率。
- 一次压缩,仅需两个规则:精简数据集的修剪法则
对于避免额外压缩过程具有计算禁止的情况,本文引入了 You Only Condense Once (YOCO) 与其它数据集压缩方法相比,在 CIFAR-10 数据集上取得了明显的准确度提升。
- EMNLPHiCL: 无监督句子嵌入的分层对比学习
本文提出了一种层次对比学习框架 HiCL,它考虑了局部分段级和全局序列级关系以提高训练效率和效果。通过将序列分为几个分段,并应用局部和全局对比学习来建模分段级和序列级关系,HiCL 提高了其效果。此外,考虑到输入标记上的 transform - 高效大规模语言模型训练的记忆和通讯成本重新思考
大尺寸建模训练,延迟均衡化,部分冗余优化器,分层重叠环,训练效率
- 将监督领域泛化融入数据增强
通过将数据增强作为监督领域泛化问题,并利用对比语义对齐损失方法,提高数据增强的鲁棒性和训练效率。实验证明,该方法改善了典型数据增强的鲁棒性和训练效率。
- 用可证明的泛化加速量子机器学习模型的核心选择
通过选择核心集合来优化量子神经网络和量子内核的训练效率,研究分析了通过核心集合训练的量子神经网络和量子内核的泛化误差界限,并通过数值模拟揭示了核心集合选择在合成数据分类、量子相关性识别和量子编译等任务中的潜力。该研究提供了一种改进多样的量子 - SortedNet:为每个网络提供位置,为每个网络找到合适位置:面向广义解决方案的训练多对一神经网络
深度学习模型大小的增长导致在内存和计算约束下寻找最优模型变得更加重要,该论文提出了 SortedNet,一种利用深度神经网络的内在模块化性质实现高效动态推断的通用可扩展解决方案。我们的训练方法考虑了子模型的嵌套架构和共享参数,并以排序和概率 - 高效射线采样用于辐射场重建
通过改进射线采样方法,在保持真实感渲染结果的同时提高了神经辐射场训练的效率,加快了神经网络的收敛速度并更准确地感知场景的空间几何结构。