FLAASH:用于稀疏高阶张量收缩的灵活加速器架构
本文提出了一种动态可重构的硬件加速器 FADES,其使用数据流模型创建读取、计算、缩放和写入结果四个阶段,可用于张量运算的动态重配置,同时支持 int8 和 float 精度切换,具有更好的性能和更低的功耗。
Apr, 2023
本论文综述了利用稀疏度、大小缩减和张量量化压缩超参数化模型以提高 ML 模型效率的方法,并分析了在硬件加速器上加速处理的机会和挑战,其中包括加速器系统的增强模块以支持其高效计算、不同硬件设计和加速技术、可实现 DNN 的加速、结构化稀疏度如何提高存储效率和平衡计算以及在加速器上如何编译和映射具有稀疏张量的模型的设计趋势。
Jul, 2020
利用软硬件协同优化的方法,我们提出了一种针对数据流加速器的利用非结构化稀疏性的新方法,通过一系列模型,在现有的疏松设计中实现了从 1.3 倍到 4.2 倍的效率提升,特别是 MobileNetV3 的吞吐量可以优化到 4895 张图像每秒。HASS 是开源的:https://github.com/Yu-Zhewen/HASS
Jun, 2024
以多层复杂结构表示不同稀疏度,提出 DNN 加速器 HighLight,能有效地将 DNN 稀疏化转换为降低能耗和延迟的技术,并达到高灵活性和性能,改善 DNN 应用的精度和能效。
May, 2023
通过张量近似和结构分解的方法,该研究提出了一种软件框架(TASDER),以更好地支持硬件加速稀疏深度神经网络,并在能耗延迟乘积上平均提升了 83% 至 74%。
Mar, 2024
提出了一个计算高效的 N:M 稀疏深度神经网络(DNN)训练方案,包括算法、架构和数据流共同设计,并利用双向权重修剪方法和稀疏加速器实现了高效的 N:M 稀疏 DNN 训练,在几种 DNN 模型和数据集上的实验结果表明,在 2:8 稀疏比率下,该方案相对于密集训练可实现平均 1.75 倍的加速,准确度损失平均仅为 0.56%,在 FPGA 加速器上训练吞吐量提高了 2.97~25.22 倍,能效提高了 1.36~3.58 倍。
Sep, 2023
本文提出了 SparseTrain 来加速卷积神经网络的训练,该方法通过完全利用稀疏性,主要包括三个方面的创新:激活梯度剪枝算法、稀疏训练数据流和加速器架构。评估结果表明,与原始训练流程相比,SparseTrain 平均可实现约 2.7 倍的加速和 2.2 倍的能量效率提高。
Jul, 2020
本研究通过优化稀疏矩阵算法,使用面向固定大小数据的平台扩展了稀疏图神经网络模型,使用 512 核 TPUv2 Pod 仅用 13 分钟训练,而原始训练需要近一天。
Jun, 2019
FLASH 是一种快速的神经架构搜索方法,它在真实硬件平台上协同优化 DNN 的准确性和性能,并且该算法比现有最先进的方法具有超过四个数量级的加速,在嵌入式设备上,搜索时间不到 3 秒。
Aug, 2021
我们扩展了 FlashAttention 以容纳一大类稀疏性注意力模式,其中包括关键 / 查询删除和基于哈希的注意力。即使具有相对较低的稀疏度,我们的方法在序列长度增加时可见地改进 FlashAttention 的性能。不牺牲困惑度的情况下,我们将 transformer 语言模型的训练速度分别提高了 2.0 倍和 3.3 倍,对于长度为 8k 和 16k 的序列。
Jun, 2023