- 减少 3D 高斯喷洒的内存占用
通过对 3D 高斯散射方法进行内存优化以减少存储和传输需求,提出了使用高斯基元、球面谐波系数和编码簿量化的解决方案,从而在标准数据集上实现了 27 的整体大小减少和 1.7 的渲染速度加快。
- ICML通过近似和共享反向传播减少微调内存开销
本文主要关注细调预训练大型模型的内存开销问题,从激活函数和层归一化的角度来减轻内存开销,并通过引入 Approx-BP 理论,提出了 GELU 和 SiLU 激活函数的内存高效替代方案,以及 Memory-Sharing Backpropa - 二进制和三进制变压器的机理解释性
研究表明,将二进制和三进制变压器网络应用于大型语言模型能够显著减少内存并提高推理速度,并且研究结果显示,这些网络在学习模块化加法时与全精度变压器网络学习的算法相似,因此无法作为语言模型中更可解释的替代方案。
- 稀疏谱培训与欧几里得和双曲神经网络上的推理
稀疏频谱训练(Sparse Spectral Training,SST)是一种先进的训练方法,通过更新网络权重的奇异向量并选择性更新奇异值,优化资源使用,同时紧密逼近全秩训练。SST 通过采用由奇异值显著性加权的多项式抽样方法来确定奇异向量 - 反向 - 前向微分
该研究论文探索了前向梯度计算作为可替代的反向传播方法,在可逆网络中减少内存占用的潜力,并引入了一种基于矢量 - 逆雅可比积的新技术,加速前向梯度计算并保持真实梯度的保真度。该方法在网络深度的时间复杂度是线性的,相比朴素前向传播的二次时间复杂 - LR-CNN:轻量级面向行的卷积神经网络训练以减少内存消耗
我们通过重新组织操作,将传统的一层一层的数据流规则打破,设计了一种轻量级架构,能够在不影响准确性的情况下移除大部分中间数据,有效降低内存消耗。我们特别研究了两个连续行之间的较弱依赖关系,提出了两种解决方案,并通过评估验证了其有效性。我们还验 - FALCON:特征 - 标签约束的图神经网络压缩方法用于内存高效的 GNNs
我们提出了一种拓扑感知的图减少技术 FALCON,它能保持特征 - 标签分布,并结合其他记忆减少方法(如小批量 GNN 和量化)进一步降低内存使用,通过与 SOTA 方法进行对比评估,我们广泛的结果表明 FALCON 能够在 GNN 模型上 - Confidant: 基于协作边缘训练的定制 Transformer 语言模型
为了在手机等无线设备上进行自定义最先进的语言模型(LLM)的训练,我们提出了 Confidant,这是一个多后端协同训练框架。Confidant 将 LLM 划分为几个子模型,以适应手机设备的内存,同时开发了一个管道并行训练机制以确保快速和 - OmniQuant:大型语言模型的全向校准量化
利用 OmniQuant 技术对大型语言模型进行后训练量化,实现了在多种量化设置下的出色性能,同时保持计算效率;在实际设备上能够显著提高推理速度和内存减少。
- PLiNIO:面向复杂感知神经网络优化的用户友好梯度方法库
本文旨在通过实验在多种边缘任务中展示 PLiNIO 的各种优化方法在准确性和模型大小方面较基线架构具有显著优势,最多可以实现 94.34% 的内存缩减且准确率下降不超过 1%。
- 使用 Adam 累积减少大规模 DNN 训练中活化和梯度的内存占用
研究了大规模 DNN 训练中 GPU 内存问题,提出了一种名为 AdamA 的优化器累加方法,能同时减少激活内存和梯度内存的占用,与 Adam 相比性能不差,能在 PyTorch 和 DeepSpeed 等框架下使用。
- SlimFit: 使用训练动态的 Transformer-based 模型的高效内存微调
SlimFit 可将 Transformer-based 模型的 GPU 内存需求减少至 2.2 倍,动态分析训练动态并在 fine-tuning 期间冻结一部分层,可用于 NLP 和 CV 任务。
- 面向内存节省的语言模型自适应的全赢行列抽样
该研究提出了一种基于 WTA-CRS 估计器的模型参数量较少、内存占用较少的 transformers 模型训练优化方法,该方法在保证模型精度的情况下,可以替代传统优化方法实现更快更稳定的训练。
- 基于地图的经验回放:强化学习中灾难性遗忘的一种内存高效解决方案
该研究采用基于心理认知的重新记忆策略,通过构建一个基于地图的经验重播存储库,减少了记忆体的大小,并增加了样本之间的相关性,从而有效地解决了深度增强学习代理在处理新数据时可能出现的忘记先前解决方案的问题。
- 大型线性层的高效反向传播优化
该研究提出了一种将随机矩阵乘法用于梯度反向传播的方法,并证明该方法可以通过降低所需内存容量,从而更加有效地处理神经网络中的线性层。通过在语义理解任务中对 RoBERTa 模型进行测试,结果表明,该方法即使降低了测试准确度,但仍能实现显著的内 - ICML实用网络压缩的群组 Fisher 剪枝
本文提出了一种通道剪枝的方法,可以应用于各种复杂的结构,包括具有耦合通道的结构,在各种主干网络上进行了大量的实验,证明该方法可以有效地提高推断速度而不影响准确性。同时纳入了 GPU 推断速度关联性比 FLOPs 更高的记忆占用量的考量。
- 使用新的执行算法,以恒定内存训练大型神经网络
本研究提出一种名为 L2L 的新型执行技术,使用 16GB V100 设备可以在单个 16GB V100 和 512GB CPU 内存的机器上承载高达 50 亿个参数的模型,相比现有方法,减少了 45%的内存使用量并提高了 40%的吞吐量, - 用于内存优化的 DNN 训练的原地激活批量归一化
本文提出了 InPlace-ABN 的方法,通过替代传统的 BatchNorm 和 Activation 层,以及在反向传播中恢复所需的信息来减少现代深度神经网络的占用内存,从而实现对已有深度学习框架的方便应用。使用该方法进行图像分类时,我 - 用廉价卷积进行蒸馏
提出了一种通过结构模型蒸馏实现神经网络内存降低的方法,使用注意力转移,并提供了残差网络的 Pareto 曲线和表格,证明这种蒸馏方法在极少损失准确率的情况下能够显著节省内存并提升学生网络性能。
- 使用张量幂法进行 CP 分解压缩卷积神经网络
基于张量分解和张量幂法的卷积神经网络压缩方法及迭代微调优化策略实现了较高的压缩比和减少了内存和计算成本,相比现有工作在不丢失精度的情况下实现了显著的优化。