Jan, 2023
RedMule:用于灵活、高能效的芯片线性代数和 TinyML 训练加速的混合精度矩阵乘操作引擎
RedMule: A Mixed-Precision Matrix-Matrix Operation Engine for Flexible and Energy-Efficient On-Chip Linear Algebra and TinyML Training Acceleration
Yvan Tortorella, Luca Bertaccini, Luca Benini, Davide Rossi, Francesco Conti
TL;DR该研究旨在解决 TinyML 场景下近传感器低功耗训练的挑战,并提出了一种低功耗特殊加速器 RedMulE,它支持 FP16 和混合 FP8 格式的多精度浮点通用矩阵乘法运算(GEMM-Ops)加速,并成功地使小型机器学习模型在低功耗设备上训练。