Jan, 2023

RedMule:用于灵活、高能效的芯片线性代数和 TinyML 训练加速的混合精度矩阵乘操作引擎

TL;DR该研究旨在解决 TinyML 场景下近传感器低功耗训练的挑战,并提出了一种低功耗特殊加速器 RedMulE,它支持 FP16 和混合 FP8 格式的多精度浮点通用矩阵乘法运算(GEMM-Ops)加速,并成功地使小型机器学习模型在低功耗设备上训练。