ElasticTrainer: 运行时弹性张量选择加速设备内训练

Dec, 2023

ElasticTrainer: 运行时弹性张量选择加速设备内训练

ElasticTrainer: Speeding Up On-Device Training with Runtime Elastic Tensor Selection

Kai Huang, Boyuan Yang, Wei Gao

TL;DR在本文中，我们介绍了一种名为 ElasticTrainer 的新技术，该技术通过全弹性的运行时适应性，在不引起显著准确性损失的情况下实现所需的训练加速，并在墙时钟时间上提高了多达 3.5 倍的训练速度，并将能源消耗降低了 2 倍至 3 倍。

Abstract

on-device training is essential for neural networks (NNs) to continuously adapt to new online data, but can be time-consuming due to the device's limited computing power. To speed up →

on-device training neural networks runtime adaptation elastictrainer training speedup

发现论文，激发创造

EF-Train: FPGA 上通过数据重塑实现高效的 CNN 设备端训练以进行在线适应或个性化

本研究设计的 EF-Train 是一种高效的 DNN 训练加速器，通过数据重塑，并建立自动计算和内存资源调度的分析模型，在低功耗边缘级 FPGA 上实现端到端的训练，最终达到了 46.99 GFLOPS 和 6.09GFLOPS/W 的吞吐量和能量效率。

Feb, 2022

动态训练和可定制推断的弹性神经网络

通过动态神经网络的方法，我们提出了一种训练大型网络并在推理阶段从中提取子网络的简单方式，以满足模型尺寸或复杂性约束，实验证明该方法可以在单个大型模型中显著缩短训练时间，并在不同子网络尺寸和复杂性上有效提高分离性能。

Dec, 2023

TinyTrain：极端边缘的深度神经网络训练

TinyTrain 是一个在设备上训练的方法，通过选择性更新模型的部分并明确处理数据稀缺性，大大减少了训练时间，在减少计算和内存占用的同时，实现了高精度的未知任务。

Jul, 2023

边缘上的设备学习：在预算约束下选择要更新的神经元的方法

挤压在极端存储和计算约束下的设备学习所需资源，提出了一种利用动态神经元选择和有效学习的新方法。

Dec, 2023

SCoTTi：使用自适应框架在训练时节省计算

提出了 SCoTTi（Save Computation at Training Time）自适应框架，通过优化阈值参数来减少训练过程中的神经元更新次数，从而降低内存和计算资源使用量。在各种常用基准和流行架构（包括 ResNets，MobileNet 和 Swin-T）上，我们的方法在计算资源节约方面表现出优越的性能。

Dec, 2023

On-Device Learning: 基于神经网络的现场可训练边缘 AI

本文介绍了一种基于神经网络的设备本地 (on-device) 学习方法，该方法能够在低端设备上提高边缘人工智能 (Edge AI) 应用的精确度并节省计算和通信成本，特别是在有噪声的环境下重训练 (retraining) 后可显著提高异物检测 (anomaly detection) 的准确性。

Mar, 2022

通过梯度过滤实现高效的设备端训练

本文提出了一种新的梯度过滤方法，使用少量的独特元素创建特殊的结构来显著减少反向传播期间的计算复杂度和内存消耗，从而实现了设备端深度学习模型训练，显著提高了速度和节省了能源。

Jan, 2023

FlexTrain：用于异构设备环境的动态训练框架

通过 FlexTrain 框架，我们能够高效部署深度学习模型到异构设备上，从而节省训练时间和能源消耗，并且在联合学习场景下优于标准联合学习基准模型。

Oct, 2023

现在我能看到，我能改进：在边缘使 CNN 的数据驱动微调成为可能

本文提供基于结构剪枝的边缘设备上的 CNN 微调方法，旨在提高模型精度和降低计算和存储性能消耗。结果表明，数据感知的剪枝和重新训练可以在各种子集，网络和剪枝级别上提供 10.2pp 的精度提高。

Jun, 2020

E2-Train: 基于 E2 方法训练最先进的 CNN 并节省 80% 以上的能量

通过三种方法 (stochastic mini-batch dropping, selective layer update, sign prediction) 来减少训练过程中的计算并实现在资源受限的设备上进行训练，该方法能够在保持准确率损失相对较小 (不超过 2%) 的前提下，实现能耗降低超过 90%。

Oct, 2019