- Adam-mini: 更少的学习率,取得更多的收益
Adam-mini 是一个优化器,通过减少内存占用量(相较于 AdamW 减少了 45%至 50%)来实现与之相当或更好的性能。Adam-mini 通过减少 Adam 中的学习率数量来降低内存使用,使用预定义参数块中 $v$ 的平均值作为该 - 前瞻思考:内存高效的联邦微调语言模型
Spry 是一种基于联邦学习的算法,用于在资源受限设备上进行大型语言模型的微调,以降低内存占用并提高准确性和收敛速度。
- 语言模型中低秩分解的精度 - 效率权衡特征化
大规模语言模型的压缩方法如量化和参数修剪在减小模型的内存占用和流量上进行了积极探索,本研究通过对低秩分解方法,特别是 Tucker 分解,在近期语言模型上的研究,包括一个开源的语言模型 Llama 2,详细分析和评估了准确性和效率之间的平衡 - 深度神经网络加速器中的量化和映射协同探索
卷积神经网络(CNN)的能效和内存占用取决于权重量化策略和映射,通过启用丰富的混合量化方案,我们可以找到更有效利用硬件资源的映射,从而在精度、能耗和内存要求之间取得更好的平衡。通过扩展 Timeloop 工具,提出了一种高效的多目标优化算法 - SEER-MoE:稀疏专家效率通过正则化的混合专家模型
我们的研究引入了 SEER-MoE,这是一个新颖的两阶段框架,用于减少预训练 MoE 模型的内存占用和计算需求。第一阶段通过使用重要数据计数指导来修剪专家的总数,而第二阶段采用基于正则化的微调策略来恢复准确性损失并减少推断过程中激活的专家数 - 通过训练后的层内多精度量化减少 DNN 内存占用
为了在资源受限的边缘设备上部署深度神经网络模型并保护隐私,本文介绍了一种有效减小深度神经网络内存占用的技术,该技术名为后训练内层多精度量化(PTILMPQ),通过估计网络中层和通道的重要性,实现了在量化过程中的精确位分配。实验结果表明,PT - GES: 通用指数溅射用于高效辐亮场渲染
通过引入 Generalized Exponential Splatting (GES) 方法,使用 Generalized Exponential Function (GEF) 模型对 3D 场景进行建模,减少了内存占用并显著提高了效率。
- 量化侧调优:快速和内存高效优化量化大型语言模型
通过使用量化、分离网络和低秩适配器等方法,Quantized Side Tuning (QST) 能够实现大型语言模型(LLMs)的内存高效、快速的微调,并在减少内存占用的同时达到与最先进方法相媲美的性能,可将总内存占用减少最多 7 倍。
- PatchMorph:无监督 3D 脑图像配准的随机深度学习方法
PatchMorph 是一种新型的随机深度学习算法,用于无监督的三维脑图像配准。与其他方法不同,我们的方法使用了具有恒定小尺寸的紧凑补丁,以得到既能够结合全局变换又能进行局部变形的解决方案。这种方法在训练过程中最小化了 GPU 的内存占用, - 基于块压缩特征的实时神经材料
基于神经材料模型的实时渲染管线,使用硬件压缩纹理格式存储学习特征,在空间和尺度上连续输出材料信息,以降低内存占用和计算开销。
- 模型压缩的参数共享之辩
通过对随机参数共享(RPS)方法、剪枝技术和构建更小模型的记忆和准确度之间的权衡进行综合评估,我们的研究结果表明,RPS 相比较于更小模型和各种剪枝策略,如 MAG、SNIP、SYNFLOW 和 GRASP,在整个压缩范围内始终表现出更优的 - BitNet:面向大型语言模型的 1 比特 Transformer 的扩展
BitNet 是一种可扩展且稳定的 1 位 Transformer 架构,用于大型语言模型,通过引入 BitLinear 作为 nn.Linear 层的替代方案,BitNet 可以从零开始训练 1 位权重,实验结果表明,与最先进的 8 位量 - EMNLP使用哨兵标记对自回归 Transformer 进行上下文压缩
通过增量压缩指定范围的令牌的中间激活,我们提出了一种即插即用的方法,从而在处理后续上下文时减少了内存和计算成本。实验证明,与稀疏注意力基线相比,我们的方法在流畅度、n-gram 匹配和语义相似性方面具有优势。最后,我们全面评估了上下文压缩对 - 通过动态嵌入修剪对预训练语言模型实现令人烦恼的简单记忆效率
使用预训练语言模型(PLMs)的广泛内存占用可阻碍其在内存受限环境(如云环境或设备上)的部署。本文提出了一种简单而有效的方法来减小嵌入矩阵的内存占用,从而在保持下游任务性能的同时更有效地利用计算资源。
- 分布式图神经网络训练的分区策略实验比较
本文研究了图分区对分布式图神经网络训练的有效性,发现图分区是一个关键的预处理步骤,能够大大减少训练时间和内存占用,同时也证明了分区所需的时间可以通过减少图神经网络训练时间加以弥补。
- 通过权重残差的低阶逼近实现精调模型的高效存储
通过权重残差的低秩特性,本文提出了一种高效的存储 fine-tuned 模型的方法,称为 Efficient Residual Encoding(ERE),通过低秩权重残差的逼近来实现 fine-tuned 模型权重的高效存储,并通过使用额 - 重新发现使用哈希随机投影以高效量化上下文化句子嵌入
本研究提出了一种利用随机超平面投影和量化技术,减小预处理数据的存储和带宽需求,从而使得边缘设备可以高效地进行推理和训练,并且在多语言句子分类任务中保持了良好的性能。
- AUTODIAL:高效异步任务导向对话模型
AUTODIAL 是一种多任务对话模型,通过使用平行解码器来预测对话行为、领域、意图和状态,较之 SimpleTOD 等生成式方法,使用分类式解码器可大幅度减少内存占用并提高推理速度,在三种对话任务上拥有 11 倍少的参数以及 3-6 倍的 - GACT: 通用网络结构激活压缩训练
本文提出了 GACT,一种用于支持各种神经网络结构的 ACT 框架,旨在减小训练内存占用。通过分析 ACT 的近似梯度的线性化版本,我们证明了 GACT 的收敛性,而且不需要关于操作符类型或模型架构的先验知识。此外,我们提出了一种算法,通过 - 基于矩阵微分方程的低秩神经网络高效发现:低秩彩票
本文提出了一种利用低秩子网提高神经网络效率的算法,该算法在训练期间已经 determined and adapted the subnetworks,从而大幅减少了训练和评估所需的时间和内存资源,并通过数值实验验证了该算法的高效性。