Aug, 2017
为定制硬件加速器编译深度学习模型
Compiling Deep Learning Models for Custom Hardware Accelerators
TL;DR本研究旨在提出一种编译器,通过 Torch7 模型描述文件生成机器级指令,并实现了一种与卷积神经网络相关的定制硬件加速器 Snowflake,优化了模型结构解析、CNN 负载分解、内存带宽优化和平衡内存访问等方面,以达到生成的指令的性能与手动优化代码相当,并有效地执行 AlexNet 和 ResNet18 推理任务。