May, 2023

深度神经网络的降低精度浮点数优化:在微控制器上进行设备端学习

TL;DR本文提出了一种降低 MCU 类设备上计算量的新型优化技术,使用支持矢量化 16 位浮点 SIMD 操作的 RISC-V RV32 架构,加速了前向和后向传递算法,其计算效率比现有 ODL 软件框架快两个数量级,并且在持续学习设置中比以前的 FP32 并行实现快 1.6 倍。