Jun, 2024

在超低功耗设备上加速深度可分卷积

TL;DR通过融合不同数据布局,我们探索了较传统卷积更高效的深度可分离卷积块,目标是在商业超低功耗设备上减少执行网络的延迟时间最多 11.40%,同时将 L2 和 L1 内存之间的激活数据移动减少最多 52.97%。