- ViDiT-Q: 图像和视频生成的扩散变压器的高效准确量化
Diffusion transformers have challenges in quantization, but the proposed ViDiT-Q method achieves lossless W8A8 quantizat - ACL面向设备的语音识别通用语言建模
本研究旨在探索不同的数据和架构驱动的语言建模方法,以构建一个单一应用程序不可知的模型,其优化了设备内存使用,同时保持了速度和准确性。其中两种前馈体系结构可以在不同设备约束之间找到最佳权衡,与特定应用程序的解决方案相比,可将硬盘占用减半。
- 一种新颖的张量专家混合并行方法用于规模化专家混合训练
本文提出一种新的混合专家神经网络架构(MoE),并采用三维混合并行算法,结合张量、专家和数据并行,进行内存和通信优化,极大地提高了 MoE 模型的训练效率和精度。
- 边缘计算下的局部梯度学习
提出了一种名为 tpSGD 的优化算法,该算法可以在边缘设备上进行学习,并且收敛速度快,具有低内存占用,并且可以训练任意的损失函数和反向传播神经网络,避免了梯度保留的需求,实现了内存优化。实验结果表明,该方法相对于其他梯度自由算法具有更好的 - ICML在集成重溢和分页的微型设备上训练神经网络
POET 算法可以实现在边缘设备上训练大型神经网络,同时减少能耗并不修改反向传播的数学正确性。在嵌入式设备的内存限制下,使用 POET 可以比当前边缘训练方法更节能地对 ResNet-18 和 BERT 进行微调。
- tinySNN:面向内存和能量高效的脉冲神经网络
该论文提出了 tinySNN 框架,可通过减少操作、优化学习质量、量化参数和选择合适的模型来在保持准确性的前提下,优化 SNN 处理的内存和能源需求,并且通过不同的量化方案、精度级别和舍入方案探索不同的 SNN 参数来实现模型压缩,从而实现 - SmartSAGE: 使用存储处理架构训练大规模图神经网络
本文针对大规模图神经网络 GNN 训练所需的巨大存储容量和内存限制的问题,提出了一种基于存储器的处理(ISP)架构的解决方案 SmartSAGE,使 GNN 训练系统具有高容量存储和高性能。
- 使用图形概括扩展 R-GCN 训练
本篇研究介绍了使用图形总结技术来压缩大型数据图形以优化内存使用,然后将该技术用于 Relational Graph Convolutional Networks 的训练中,并通过在 AIFB、MUTAG 和 AM 数据集上的实验证明,使用图 - 一个用于设备上连续学习的 TinyML 平台,具备量化的潜在回放功能
本文提出了基于 PULP 处理器的深度学习端到端持续学习硬件 / 软件平台,利用量化和潜在重播来优化内存成本,以实现采用小型设备的实践多样性更新。
- ICLR随机自动微分
提出了随机自动微分 (RAD) 的一般框架和方法,可实现减少内存的无偏梯度估计,特别适用于小批量的反向传播神经网络,同时适用于科学计算中的优化控制参数
- ICLR神经参数分配搜索
本文提出神经参数分配搜索 (NPAS) 以及 Shapeshifter Networks (SSNs) 算法,通过自动学习神经网络中参数的共享,从而达到内存优化和性能优化的目的。这一方法在多项任务和网络结构中取得良好的效果。
- ZeRO: 面向训练万亿参数模型的内存优化
本文描述了一种名为 ZeRO 的内存优化算法,可以有效地缩短大型深度学习模型的训练时间,并提高模型大小和通讯效率。该算法在 400 个 GPU 上训练了超过 1000 亿参数的大型模型,提供了比现有技术更高的性能和可用性。
- COSINE: 大规模信息网络上的压缩网络嵌入
本研究提出了一种名为 COSINE 的算法,它利用网络中节点相似的邻居特性,在训练过程中通过参数共享来降低内存开销并加速训练,并通过图分区算法构建节点间的参数共享依赖关系,使得网络嵌入更为高效和有效。COSINE 可应用于任何嵌入式查找方法 - NIPS可逆循环神经网络
该研究提出了一种称为可逆 RNN 的方法,用于优化循环神经网络,该方法可以在不存储 hidden activations 的情况下实现完全可逆,并降低激活内存成本,扩展到 attention-based sequence-to-sequen - 使用浮点数权重和固定点激活函数的深度卷积神经网络推断
本文提出使用浮点数表示权重和使用定点数表示激活,证明了相较于定点数表示,使用浮点数表示权重更加高效,同时能够优化硬件乘加器设计,实验表明这个方法最多可减少 36% 的权重存储和 50% 的硬件乘加器功耗。
- 人脸验证的三元组相似度嵌入
提出了一种结合深度卷积神经网络和三元组相似性约束的低维判别嵌入的无约束人脸验证算法,在 IJB-A 数据集上显示出超越现有方法的性能提升和内存优化的优点。
- 贝叶斯在线分类的虚拟向量机
提出了一种基于贝叶斯定理的虚拟支持向量机算法,通过使用高斯分布和虚拟数据点,平衡在线学习场景下的分类预测精度和内存缓冲的数据处理要求。