通过梯度过滤实现高效的设备端训练
本文介绍了一种基于神经网络的设备本地 (on-device) 学习方法,该方法能够在低端设备上提高边缘人工智能 (Edge AI) 应用的精确度并节省计算和通信成本,特别是在有噪声的环境下重训练 (retraining) 后可显著提高异物检测 (anomaly detection) 的准确性。
Mar, 2022
本文提出了一种在资源受限设备上部署和训练最先进模型的新解决方案,其中包括通过一种基于滤波修剪的模型压缩方法创造轻量级可训练模型,以及一种新型知识转移方法,允许在设备上的模型实时增量更新,并以无监督的方式通过云端模型学习新的类别。实验结果表明,该新方法可以在保持良好准确率的同时移除高达 99.36%的模型参数,并且允许在设备上的压缩模型在实时内收敛于增量学习任务并识别未见过的数据类别。
Jan, 2022
本研究设计的 EF-Train 是一种高效的 DNN 训练加速器,通过数据重塑,并建立自动计算和内存资源调度的分析模型,在低功耗边缘级 FPGA 上实现端到端的训练,最终达到了 46.99 GFLOPS 和 6.09GFLOPS/W 的吞吐量和能量效率。
Feb, 2022
TinyTrain 是一个在设备上训练的方法,通过选择性更新模型的部分并明确处理数据稀缺性,大大减少了训练时间,在减少计算和内存占用的同时,实现了高精度的未知任务。
Jul, 2023
在受限资源的移动和边缘环境中,创新的卷积神经网络(CNN)训练系统 NeuroFlux 旨在提高训练效率,通过引入自适应辅助网络和块特定的自适应批处理大小来减少 GPU 内存使用,并缩短训练时间,从而实现了 2.3 倍到 6.1 倍的速度提升和精度不损失的模型。
Feb, 2024
该研究论文提出了一种完全不需要使用反向传播的训练框架,通过引入压缩张量方差缩减方法和混合梯度评估方法,以及利用稀疏网格方法估计损失函数中的导数,该方法在训练规模和效率方面存在多个技术贡献,同时在 MNIST 数据集上与标准一阶训练相比,仅略有损失准确性,并成功地应用于物理建模相关的神经网络训练,这种无需反向传播的高效低内存方法有望在资源受限的平台上进行即将到来的设备端训练应用。
Aug, 2023
本文介绍了一种优化了的基础模型,通过在移动设备上实施优化,使大规模扩散模型的推理延迟得到了显著缩短,从而提高了生成性 AI 的适用性并改善了用户体验。
Apr, 2023
本文介绍了如何利用手机上普遍存在的 GPU 加速器,在 Android 和 iOS 设备上实现深度神经网络的实时推断,并将其集成到开源项目 TensorFlow Lite 中。
Jul, 2019
通过三种方法 (stochastic mini-batch dropping, selective layer update, sign prediction) 来减少训练过程中的计算并实现在资源受限的设备上进行训练,该方法能够在保持准确率损失相对较小 (不超过 2%) 的前提下,实现能耗降低超过 90%。
Oct, 2019