AVX2 指令加速人口统计速度
本文介绍了一种基于 SIMD 指令的新型向量化方案,名为 SIMD-BP128,可以加速整数数组编码和解码,并提高节省存储空间。同时,还提出了一种名为 SIMD-FastPFOR 的新型向量化压缩方案,具有很好的压缩性能和解压速度。
Sep, 2012
通过使用数据流和启发式引导分析及代码生成框架,我们致力于解决在 CPU 上部署神经网络时所面临的挑战,特别注重在保持准确性的同时最小化推断时间。我们的研究结果表明,通过保持输出在 SIMD 寄存器中的数据流,并同时最大限度地利用输入和权重重用,可以实现各种推断工作负载的最佳性能,使 8 位神经网络的速度提高 3 倍,二进制神经网络的速度提高 4.8 倍。
Oct, 2023
本文提出了一种在 SRAM 阵列内加速二进制卷积的方法,包括基于电荷共享的 XNOR 和 popcount 运算以及在读位线上添加开关实现 SRAM 阵列分段,采用这种方法可以大大改善整个系统的吞吐量和能耗效率。
Jul, 2018
研究表明,使用极端量化可以将 CNN 的权重和中间特征图二值化,从而节省内存并将能量密集型的乘积操作转换为 XNOR 和 popcount 操作,我们提出的二值 CNN 加速器 XNORBIN 在低功率嵌入式系统中具有紧密耦合的计算和内存,能够实现 95 TOp/s/W 的能量效率和 2.0 TOp/s/MGE 的面积效率。
Mar, 2018
我们提出了一种能够以比现有技术快 12 倍以上的速度压缩矢量并加速近似向量操作的矢量量化算法,用于计算近似点积等操作的速度可提高 10 倍以上,可以加速最近邻搜索和最大内积搜索 100 倍以上,并且与现有的矢量量化算法相比误差竞争力强。
Jun, 2017
本研究讨论了在现有的 RISC-V 处理器上通过改进 OpenCV 库中几个计算机视觉和机器学习算法的向量化来加速计算的可能性,并证明改进的向量化可以将 RISC-V 设备的计算速度提高百分之几十。
Sep, 2023