BriefGPT.xyz
Ask
alpha
关键词
direct convolution
搜索结果 - 2
ICML
高性能零内存开销直接卷积
本篇论文研究并证明了,当直接卷积实现正确时,消除了所有的内存开销,且效率在传统和嵌入式 CPU 架构上比现有的高性能卷积实现提高了 10% 到 400% 不等,并可以更好地扩展性能,即增加线程数时的性能下降更少。
PDF
6 years ago
基于 SIMD 架构的高性能深度学习卷积解剖学
本文介绍了针对 x86 体系结构的直接卷积核和动态编译方法实现的 JIT 优化内核,该内核可在多节点下高效执行最新的图像识别任务,使单机和多节点运行时高效地通过 CPU 执行任务的高吞吐量。
PDF
6 years ago
Prev
Next