学习优化张量程序
介绍了 TensorFlow、Chainer、CNTK、Torch/PyTorch、Caffe1/2、MXNet 和 Theano 等深度学习神经网络的竞争框架,并提出了一种名为 Tensor Comprehensions 的类数学语言,以及一个将深度学习 DAG 的数学描述转换为 CUDA 核心的即时编译器。
Feb, 2018
本文旨在实现深度神经网络硬件实现的超高能效和性能,提出一种面向不同类型、大小和应用场景的 DNN 算法 - 硬件协同优化框架,并在硬件部分采用高效的 FPGA 实现,实验表明与 IBM TrueNorth 处理器和参考的 FPGA 实现相比,该框架至少实现了 152 倍的加速和 71 倍的能效增益。
Feb, 2018
TVM 是一个深度学习编译器,可将深度学习工作负载在各种硬件后端上具有良好的性能移植性,通过学习基于成本模型的方法,自动进行低级程序的硬件特征优化,实验结果表明,TVM 在处理低功率 CPU、移动 GPU 和服务器级 GPU 的竞争性能与手工调优库类似,并能定位到新的加速器后端,如基于 FPGA 的深度学习通用加速器。
Feb, 2018
该研究提出了一种用于开发高效、可移植的深度学习和高性能计算内核的框架,通过使用 Tensor Processing Primitives (TPPs) 表达计算核心,并通过简单的旋钮确定精确的实例化,我们在不同的 CPU 平台上展示了单独的核心和端到端工作负载,超越了现有技术的实现。
Apr, 2023
本文介绍了一种名为 TF-Coder 的工具,可以使用 TensorFlow 进行编程示例。TF-Coder 使用自底向上的加权枚举搜索,通过基于值的修剪等方法,确保表达式符合 TensorFlow 库所施加的各种要求。在实现 63 个真实世界的任务时,TF-Coder 在 5 分钟内解决了其中 63 个,有时比经验丰富的人类程序员更快地找到了更简单的解决方案。
Mar, 2020
通过对张量运算(矩阵乘法和卷积)应用基于样本的近似,提出了一种用于深度神经网络加速训练的新技术。应用到 MLP 和 CNN 网络的 MNIST,CIFAR-10 和 ImageNet 数据集的训练实验结果表明,该方法可以大幅度减少计算量和通讯量,并以不会对最终测试准确率产生可感知影响的方式提升训练速度。
May, 2018
本研究通过评估四种最先进的分布式深度学习框架(即 Caffe-MPI,CNTK,MXNet 和 TensorFlow)在单 GPU、多 GPU 和多节点环境中的运行性能,基于 SGD 训练三种流行的卷积神经网络(即 AlexNet,GoogleNet 和 ResNet-50),分析了引起这四个框架性能差异的因素,并提出进一步优化方向。通过分析和实验研究,发现了可以进一步优化的瓶颈和开销,为算法设计和系统配置提供了改进方向。
Nov, 2017
该论文介绍了 TensorIR 编译器抽象,用于优化具有张量计算原语的程序,通过 TensorIR 编译可以自动化优化深度学习模型,实验结果表明 TensorIR 编译使用特定的硬件后端的张量计算原语,并在各平台上提供了与手动优化系统相当的性能竞争力。
Jul, 2022