与硬件协同设计模型架构的案例

Jan, 2024

The Case for Co-Designing Model Architectures with Hardware

Quentin Anthony, Jacob Hatef, Deepak Narayanan, Stella Biderman, Stas Bekman...

TL;DR通过仔细考虑 GPU 上执行的基础计算核心的各种模型超参数对模型形状效率的影响，我们提供了一套指南，以最大化用户的 Transformer 模型的运行时性能。通过优化模型形状，与具有类似参数但形状未经优化的模型相比，高效模型形状的吞吐量提高了多达 39％，同时保持准确性。

Abstract

While gpus are responsible for training the vast majority of state-of-the-art deep learning models, the implications of their architecture

gpus deep learning models architecture dl training transformer models

发现论文，激发创造

硬件感知机器学习：建模与优化

本篇论文全面评估现有的面向硬件的深度学习模型建模和优化方法，提出几个值得探讨的研究方向，旨在让深度学习的应用对硬件系统和平台产生显著影响。

Sep, 2018

重新思考神经网络结构与硬件加速器的共同设计

本研究系统研究了协同设计神经网络架构和硬件加速器的重要性和策略，发现不同的使用场景会导致非常不同的搜索结果，研究表明联合搜索方法在所有延迟目标上始终优于以前的面向平台的神经体系结构搜索、手动设计的模型和最先进的 EfficientNet，可将边缘加速器的能源消耗降低高达 2 倍。

Feb, 2021

深度学习推荐模型规模训练效率探究

本文探讨使用 GPU 进行推荐模型训练时所遇到的种种挑战，如模型架构参数、存储过大的嵌入表等造成的 GPU 性能与效率问题，同时介绍了新型 GPU 服务器设计 Zion 所带来的优势。

Nov, 2020

基于 CPU 的深度学习模型：高效训练的方法论

本文提出了一种在 Intel CPU 上优化深度学习模型训练的方法和工具集 ProfileDNN 以及一个任务优化方法，旨在解决在选择适当硬件时成本和效率之间的权衡问题，并通过几个案例研究探讨了如何使用 ProfileDNN 和 Intel PyTorch 扩展来优化模型训练。

Jun, 2022

数据移动即所需：优化 Transformer 的案例研究

该研究提出了一种全局优化 transformers 数据传输的方法，通过减少数据传输的步骤，实现了对 BERT 编码器层的训练性能提升 1.30 倍以及整个 BERT 的训练性能提升 1.19 倍。此方法可更广泛地应用于优化深度神经网络，提供了解决性能瓶颈问题的见解。

Jun, 2020

Transformer 推理的全栈优化：一项调查

本文调查了提高 Transformer 模型推理效率的不同方法，包括分析现有模型架构的瓶颈和硬件设计的影响，调度操作的挑战，以及通过神经网络架构搜索来优化 Transformer 模型等研究方向。最后，作者将这些方法应用于一个开源的全栈 DNN 加速器生成器中，并表明这些方法都可以对提高模型推理速度产生影响，其中最优的全栈设计方法可以将速度提高多达 88.7 倍，同时性能基本不受损害

Feb, 2023

神经网络结构训练的能效：一项实证研究

本文通过使用深度卷积神经网络的实证研究，研究了深度学习模型的体系结构与其环境影响之间的关系，重点关注能源消耗和二氧化碳排放等方面的交易，并探讨了精度和能源效率之间的权衡，以及使用软件和硬件工具测量能量消耗的差异。

Feb, 2023

神经加速器的硬件 / 软件学习式协同设计

本文提出一种基于硬件 / 软件协同设计的新的约束贝叶斯优化框架，可以自动识别联合设计空间中的优化点，应用于各种神经模型，改善能量延迟产品的性能。

Oct, 2020

加速器驱动的数据排列在多核架构上最小化变压器运行时间

提出了一种新颖的内存数据排列策略，通过硬件加速器的内核大小来有效减小芯片外数据访问，特别对于基于广义矩阵乘法（GEMM）的终端到终端变压器模型推理尤为有益。本研究通过在单核和多核系统中实现和评估提出的加速器驱动的数据排列方法，证明了该方法能够实现高达 2.8 倍的速度提升。

Dec, 2023

基于成本的机器学习流水线硬件软件协同优化

通过量化、成本限制平台等因素综合考虑，探讨如何在边缘平台上最优化地设计系统和部署模型，以实现广泛适用的智能设备。

Oct, 2023