FLAASH：用于稀疏高阶张量收缩的灵活加速器架构

Apr, 2024

FLAASH：用于稀疏高阶张量收缩的灵活加速器架构

FLAASH: Flexible Accelerator Architecture for Sparse High-Order Tensor Contraction

Gabriel Kulp, Andrew Ensinger, Lizhong Chen

TL;DR这篇论文介绍了一个灵活且模块化的加速器设计，用于稀疏张量收缩，在深度学习工作负载中实现了超过 25 倍的加速效果。

Abstract

tensors play a vital role in machine learning (ML) and often exhibit properties best explored while maintaining high-order. Efficiently performing ML computations requires taking advantage of sparsity, but genera

tensors machine learning sparse tensor contraction accelerator design speedup

发现论文，激发创造

Tensorflow Lite 中可动态重配置的可变精度稀疏密矩阵加速

本文提出了一种动态可重构的硬件加速器 FADES，其使用数据流模型创建读取、计算、缩放和写入结果四个阶段，可用于张量运算的动态重配置，同时支持 int8 和 float 精度切换，具有更好的性能和更低的功耗。

Apr, 2023

机器学习模型的稀疏和不规则张量计算的硬件加速：调查和洞见

本论文综述了利用稀疏度、大小缩减和张量量化压缩超参数化模型以提高 ML 模型效率的方法，并分析了在硬件加速器上加速处理的机会和挑战，其中包括加速器系统的增强模块以支持其高效计算、不同硬件设计和加速技术、可实现 DNN 的加速、结构化稀疏度如何提高存储效率和平衡计算以及在加速器上如何编译和映射具有稀疏张量的模型的设计趋势。

Jul, 2020

HASS: 数据流 DNN 加速器的硬件感知稀疏性搜索

利用软硬件协同优化的方法，我们提出了一种针对数据流加速器的利用非结构化稀疏性的新方法，通过一系列模型，在现有的疏松设计中实现了从 1.3 倍到 4.2 倍的效率提升，特别是 MobileNetV3 的吞吐量可以优化到 4895 张图像每秒。HASS 是开源的：https://github.com/Yu-Zhewen/HASS

Jun, 2024

高亮：基于分层结构稀疏性的高效灵活的 DNN 加速

以多层复杂结构表示不同稀疏度，提出 DNN 加速器 HighLight，能有效地将 DNN 稀疏化转换为降低能耗和延迟的技术，并达到高灵活性和性能，改善 DNN 应用的精度和能效。

May, 2023

通过结构化稀疏张量分解对稀疏 DNN 加速进行抽象化

通过张量近似和结构分解的方法，该研究提出了一种软件框架（TASDER），以更好地支持硬件加速稀疏深度神经网络，并在能耗延迟乘积上平均提升了 83% 至 74%。

Mar, 2024

基于算法、架构和数据流共同设计的高效稀疏 DNN 训练

提出了一个计算高效的 N:M 稀疏深度神经网络（DNN）训练方案，包括算法、架构和数据流共同设计，并利用双向权重修剪方法和稀疏加速器实现了高效的 N:M 稀疏 DNN 训练，在几种 DNN 模型和数据集上的实验结果表明，在 2:8 稀疏比率下，该方案相对于密集训练可实现平均 1.75 倍的加速，准确度损失平均仅为 0.56%，在 FPGA 加速器上训练吞吐量提高了 2.97~25.22 倍，能效提高了 1.36~3.58 倍。

Sep, 2023

SparseTrain: 利用数据流量稀疏性来实现高效的卷积神经网络训练

本文提出了 SparseTrain 来加速卷积神经网络的训练，该方法通过完全利用稀疏性，主要包括三个方面的创新：激活梯度剪枝算法、稀疏训练数据流和加速器架构。评估结果表明，与原始训练流程相比，SparseTrain 平均可实现约 2.7 倍的加速和 2.2 倍的能量效率提高。

Jul, 2020

在密集硬件上快速训练稀疏图神经网络

本研究通过优化稀疏矩阵算法，使用面向固定大小数据的平台扩展了稀疏图神经网络模型，使用 512 核 TPUv2 Pod 仅用 13 分钟训练，而原始训练需要近一天。

Jun, 2019

FLASH：具有硬件优化的快速神经架构搜索

FLASH 是一种快速的神经架构搜索方法，它在真实硬件平台上协同优化 DNN 的准确性和性能，并且该算法比现有最先进的方法具有超过四个数量级的加速，在嵌入式设备上，搜索时间不到 3 秒。

Aug, 2021

大规模序列中通过稀疏闪存注意力加速因果注意力

我们扩展了 FlashAttention 以容纳一大类稀疏性注意力模式，其中包括关键 / 查询删除和基于哈希的注意力。即使具有相对较低的稀疏度，我们的方法在序列长度增加时可见地改进 FlashAttention 的性能。不牺牲困惑度的情况下，我们将 transformer 语言模型的训练速度分别提高了 2.0 倍和 3.3 倍，对于长度为 8k 和 16k 的序列。

Jun, 2023