ElasticTrainer: 运行时弹性张量选择加速设备内训练
本研究设计的 EF-Train 是一种高效的 DNN 训练加速器,通过数据重塑,并建立自动计算和内存资源调度的分析模型,在低功耗边缘级 FPGA 上实现端到端的训练,最终达到了 46.99 GFLOPS 和 6.09GFLOPS/W 的吞吐量和能量效率。
Feb, 2022
通过动态神经网络的方法,我们提出了一种训练大型网络并在推理阶段从中提取子网络的简单方式,以满足模型尺寸或复杂性约束,实验证明该方法可以在单个大型模型中显著缩短训练时间,并在不同子网络尺寸和复杂性上有效提高分离性能。
Dec, 2023
TinyTrain 是一个在设备上训练的方法,通过选择性更新模型的部分并明确处理数据稀缺性,大大减少了训练时间,在减少计算和内存占用的同时,实现了高精度的未知任务。
Jul, 2023
提出了 SCoTTi(Save Computation at Training Time)自适应框架,通过优化阈值参数来减少训练过程中的神经元更新次数,从而降低内存和计算资源使用量。在各种常用基准和流行架构(包括 ResNets,MobileNet 和 Swin-T)上,我们的方法在计算资源节约方面表现出优越的性能。
Dec, 2023
本文介绍了一种基于神经网络的设备本地 (on-device) 学习方法,该方法能够在低端设备上提高边缘人工智能 (Edge AI) 应用的精确度并节省计算和通信成本,特别是在有噪声的环境下重训练 (retraining) 后可显著提高异物检测 (anomaly detection) 的准确性。
Mar, 2022
本文提出了一种新的梯度过滤方法,使用少量的独特元素创建特殊的结构来显著减少反向传播期间的计算复杂度和内存消耗,从而实现了设备端深度学习模型训练,显著提高了速度和节省了能源。
Jan, 2023
通过 FlexTrain 框架,我们能够高效部署深度学习模型到异构设备上,从而节省训练时间和能源消耗,并且在联合学习场景下优于标准联合学习基准模型。
Oct, 2023
本文提供基于结构剪枝的边缘设备上的 CNN 微调方法,旨在提高模型精度和降低计算和存储性能消耗。结果表明,数据感知的剪枝和重新训练可以在各种子集,网络和剪枝级别上提供 10.2pp 的精度提高。
Jun, 2020
通过三种方法 (stochastic mini-batch dropping, selective layer update, sign prediction) 来减少训练过程中的计算并实现在资源受限的设备上进行训练,该方法能够在保持准确率损失相对较小 (不超过 2%) 的前提下,实现能耗降低超过 90%。
Oct, 2019