通过梯度过滤实现高效的设备端训练

Jan, 2023

通过梯度过滤实现高效的设备端训练

Efficient On-device Training via Gradient Filtering

Yuedong Yang, Guihong Li, Radu Marculescu

TL;DR本文提出了一种新的梯度过滤方法，使用少量的独特元素创建特殊的结构来显著减少反向传播期间的计算复杂度和内存消耗，从而实现了设备端深度学习模型训练，显著提高了速度和节省了能源。

Abstract

Despite its importance for federated learning, continuous learning and many other applications, on-device training remains an open problem for edgeai. The problem stems from the large number of operations (e.g.,

on-device training edgeai gradient filtering approach dnn model training computational complexity

发现论文，激发创造

On-Device Learning: 基于神经网络的现场可训练边缘 AI

本文介绍了一种基于神经网络的设备本地 (on-device) 学习方法，该方法能够在低端设备上提高边缘人工智能 (Edge AI) 应用的精确度并节省计算和通信成本，特别是在有噪声的环境下重训练 (retraining) 后可显著提高异物检测 (anomaly detection) 的准确性。

Mar, 2022

通过过滤器剪枝和知识迁移在边缘设备上实现深度学习

本文提出了一种在资源受限设备上部署和训练最先进模型的新解决方案，其中包括通过一种基于滤波修剪的模型压缩方法创造轻量级可训练模型，以及一种新型知识转移方法，允许在设备上的模型实时增量更新，并以无监督的方式通过云端模型学习新的类别。实验结果表明，该新方法可以在保持良好准确率的同时移除高达 99.36％的模型参数，并且允许在设备上的压缩模型在实时内收敛于增量学习任务并识别未见过的数据类别。

Jan, 2022

EF-Train: FPGA 上通过数据重塑实现高效的 CNN 设备端训练以进行在线适应或个性化

本研究设计的 EF-Train 是一种高效的 DNN 训练加速器，通过数据重塑，并建立自动计算和内存资源调度的分析模型，在低功耗边缘级 FPGA 上实现端到端的训练，最终达到了 46.99 GFLOPS 和 6.09GFLOPS/W 的吞吐量和能量效率。

Feb, 2022

TinyTrain：极端边缘的深度神经网络训练

TinyTrain 是一个在设备上训练的方法，通过选择性更新模型的部分并明确处理数据稀缺性，大大减少了训练时间，在减少计算和内存占用的同时，实现了高精度的未知任务。

Jul, 2023

NeuroFlux: 自适应本地学习的内存高效 CNN 训练

在受限资源的移动和边缘环境中，创新的卷积神经网络（CNN）训练系统 NeuroFlux 旨在提高训练效率，通过引入自适应辅助网络和块特定的自适应批处理大小来减少 GPU 内存使用，并缩短训练时间，从而实现了 2.3 倍到 6.1 倍的速度提升和精度不损失的模型。

Feb, 2024

基于张量压缩的无反向传播训练 (物理信息) 神经网络

该研究论文提出了一种完全不需要使用反向传播的训练框架，通过引入压缩张量方差缩减方法和混合梯度评估方法，以及利用稀疏网格方法估计损失函数中的导数，该方法在训练规模和效率方面存在多个技术贡献，同时在 MNIST 数据集上与标准一阶训练相比，仅略有损失准确性，并成功地应用于物理建模相关的神经网络训练，这种无需反向传播的高效低内存方法有望在资源受限的平台上进行即将到来的设备端训练应用。

Aug, 2023

速度即一切：通过 GPU 感知优化在设备上加速大型扩散模型

本文介绍了一种优化了的基础模型，通过在移动设备上实施优化，使大规模扩散模型的推理延迟得到了显著缩短，从而提高了生成性 AI 的适用性并改善了用户体验。

Apr, 2023

使用移动 GPU 进行设备端神经网络推断

本文介绍了如何利用手机上普遍存在的 GPU 加速器，在 Android 和 iOS 设备上实现深度神经网络的实时推断，并将其集成到开源项目 TensorFlow Lite 中。

Jul, 2019

硬件限制的小型四旋翼无人机上的设备端自监督学习视觉感知任务

通过在纳米无人机上进行设备学习，我们提出了解决领域转换问题的方法，并在实施中取得了重要进展。

Mar, 2024

E2-Train: 基于 E2 方法训练最先进的 CNN 并节省 80% 以上的能量

通过三种方法 (stochastic mini-batch dropping, selective layer update, sign prediction) 来减少训练过程中的计算并实现在资源受限的设备上进行训练，该方法能够在保持准确率损失相对较小 (不超过 2%) 的前提下，实现能耗降低超过 90%。

Oct, 2019