学习优化张量程序

May, 2018

Learning to Optimize Tensor Programs

Tianqi Chen, Lianmin Zheng, Eddie Yan, Ziheng Jiang, Thierry Moreau...

TL;DR该论文介绍了一个基于深度学习工作负载的张量程序优化学习框架，其通过学习领域特定的统计成本模型来引导张量操作实现的搜索，进而加速搜索，实现性能与手动调整的图书馆竞争力相当。

Abstract

We introduce a learning-based framework to optimize tensor programs for deep learning workloads. efficient implementations of tensor opera

tensor programs deep learning efficient implementations learning-based framework statistical cost models

发现论文，激发创造

cuDNN：深度学习高效基元

创建了一个类似于 BLAS 的优化深度学习工作负载例程库，包含 GPU 的程序，易于集成到现有框架中，性能优化和内存使用率提高 36%。

Oct, 2014

Tensor Comprehensions：通用的高性能机器学习抽象框架

介绍了 TensorFlow、Chainer、CNTK、Torch/PyTorch、Caffe1/2、MXNet 和 Theano 等深度学习神经网络的竞争框架，并提出了一种名为 Tensor Comprehensions 的类数学语言，以及一个将深度学习 DAG 的数学描述转换为 CUDA 核心的即时编译器。

Feb, 2018

深度学习系统的超高性能和能量效率：一种算法 - 硬件协同优化框架

本文旨在实现深度神经网络硬件实现的超高能效和性能，提出一种面向不同类型、大小和应用场景的 DNN 算法 - 硬件协同优化框架，并在硬件部分采用高效的 FPGA 实现，实验表明与 IBM TrueNorth 处理器和参考的 FPGA 实现相比，该框架至少实现了 152 倍的加速和 71 倍的能效增益。

Feb, 2018

TVM：深度学习自动化端到端优化编译器

TVM 是一个深度学习编译器，可将深度学习工作负载在各种硬件后端上具有良好的性能移植性，通过学习基于成本模型的方法，自动进行低级程序的硬件特征优化，实验结果表明，TVM 在处理低功率 CPU、移动 GPU 和服务器级 GPU 的竞争性能与手工调优库类似，并能定位到新的加速器后端，如基于 FPGA 的深度学习通用加速器。

Feb, 2018

在 CPU 体系结构上通过高级循环和张量抽象利用深度学习和 HPC 核心技术

该研究提出了一种用于开发高效、可移植的深度学习和高性能计算内核的框架，通过使用 Tensor Processing Primitives (TPPs) 表达计算核心，并通过简单的旋钮确定精确的实例化，我们在不同的 CPU 平台上展示了单独的核心和端到端工作负载，超越了现有技术的实现。

Apr, 2023

TF-Coder：用于张量操作的程序合成

本文介绍了一种名为 TF-Coder 的工具，可以使用 TensorFlow 进行编程示例。TF-Coder 使用自底向上的加权枚举搜索，通过基于值的修剪等方法，确保表达式符合 TensorFlow 库所施加的各种要求。在实现 63 个真实世界的任务时，TF-Coder 在 5 分钟内解决了其中 63 个，有时比经验丰富的人类程序员更快地找到了更简单的解决方案。

Mar, 2020

使用近似张量运算加速神经网络训练

通过对张量运算（矩阵乘法和卷积）应用基于样本的近似，提出了一种用于深度神经网络加速训练的新技术。应用到 MLP 和 CNN 网络的 MNIST，CIFAR-10 和 ImageNet 数据集的训练实验结果表明，该方法可以大幅度减少计算量和通讯量，并以不会对最终测试准确率产生可感知影响的方式提升训练速度。

May, 2018

GPU 上的分布式深度学习框架性能建模与评估

本研究通过评估四种最先进的分布式深度学习框架（即 Caffe-MPI，CNTK，MXNet 和 TensorFlow）在单 GPU、多 GPU 和多节点环境中的运行性能，基于 SGD 训练三种流行的卷积神经网络（即 AlexNet，GoogleNet 和 ResNet-50），分析了引起这四个框架性能差异的因素，并提出进一步优化方向。通过分析和实验研究，发现了可以进一步优化的瓶颈和开销，为算法设计和系统配置提供了改进方向。

Nov, 2017

理解和校正学习优化器训练中的病态

通过对学习到的优化函数进行训练以执行特定任务，我们提出了一种训练方案，它可以比经过调整的一阶方法更快地训练卷积网络，并在测试损失上得到改进。

Oct, 2018

TensorIR：自动张量程序优化的抽象

该论文介绍了 TensorIR 编译器抽象，用于优化具有张量计算原语的程序，通过 TensorIR 编译可以自动化优化深度学习模型，实验结果表明 TensorIR 编译使用特定的硬件后端的张量计算原语，并在各平台上提供了与手动优化系统相当的性能竞争力。

Jul, 2022