Nov, 2023

FPGA-QHAR: 面向边缘的量化人体动作识别优化吞吐量

TL;DR提出了一种基于改进的 8 位量化的 Two-Stream SimpleNet-PyTorch CNN 体系结构的集成端到端的可扩展硬件 / 软件加速器共设计用于加速实时监控和机器人系统上的人类动作识别。通过将所有卷积、批量归一化和 ReLU 操作融合成一个单一的均匀层,并利用 Lucas-Kanade 运动流方法实现高并行加速器设计和优化的芯片上引擎计算,实现了近 81% 的预测准确率和约 24 FPS 的实时推理吞吐量,其性能比以前的研究提高了 1.7 倍到 1.9 倍。该框架针对更高的吞吐量和性能测量进行了基准测试,并作为一个开源项目在 GitHub 上提供,用于训练和实现在边缘平台上。