- Misam: 使用机器学习在稀疏稀疏矩阵乘法的数据流选择
通过使用决策树和深度强化学习技术,本文提出一种基于机器学习的方法来自适应地选择适应不同稀疏度模式的 SpGEMM 任务的最合适的数据流方案,进一步对比了传统的启发式方法,结果显示使用机器学习来进行硬件加速器中的动态数据流选择能够带来高达 2 - 聪明的基准测试 AI 加速器 —— 以性能代表为基准
通过利用目标硬件架构和初始参数扫描,我们提出了一种新的性能建模方法,显着减少了训练样本的数量,同时保持较高的准确性。我们的方法针对单层估计达到 0.02% 的平均绝对百分比误差(MAPE),针对整个深度神经网络的估计达到 0.68% 的 M - 现代电子结构模拟
ESS 的机器学习模型 MESS 在 JAX 中实现,加快了速度并为 ESS 与 ML 的结合提供了可能性。
- 从算法到硬件:深度神经网络高效安全部署综述
深度神经网络(DNNs)在许多人工智能(AI)任务中被广泛使用,为了解决其部署带来的巨大的内存、能量和计算成本挑战,研究人员开发了各种模型压缩技术,最近还有越来越多的研究关注定制化 DNN 硬件加速器以更好地利用模型压缩技术,此外,保护安全 - 一种可配置和高效的神经网络硬件加速器内存层次结构
我们提出了一个可配置的内存层次结构框架,旨在为深度神经网络 (DNNs) 的自适应内存访问模式提供数据,并在最小化所需内存容量的同时维持高加速器性能方面达到优化平衡。
- HDReason: 超维知识图推理的算法硬件协同设计
使用基于大脑启发的高维计算方法,本研究提出了一种高效且适合加速的知识图谱补全算法,并针对 FPGA 平台进行了一种加速框架的算法 - 硬件共同设计。与 NVIDIA RTX 4090 GPU 相比,该加速器平均实现了 10.6 倍的加速和 - SAFFIRA: 用于评估基于 Systolic-Array 的 DNN 加速器可靠性的框架
为 Systolic 阵列硬件加速器引入了一种新的层次化基于软件的硬件感知的故障注入策略,以解决可靠性评估的时间效率问题。
- 球面和球上的可微分和加速小波变换
设计了新的高度可分布且可自动微分的球面及球体方向小波变换,用于加速球面和球体上的信号处理,并提供梯度信息来解锁以往在这些空间中不可能的数据驱动分析技术。
- 使用抽象计算机体系结构描述语言建模 AI 硬件加速器
人工智能通过深度神经网络持续增长,为了充分发挥其潜力,特定的硬件加速器成为必需品。本文介绍了如何使用抽象计算机体系结构描述语言(ACADL)对人工智能硬件加速器进行建模,并使用它们的描述将深度神经网络映射到加速器上,进而解释时间模拟语义来获 - 大型语言模型的硬件加速器调查
该研究综述了与优化大型语言模型性能和能源效率相关的硬件加速器,涵盖了多种加速器的体系结构、性能指标和能源效率考虑,并为研究人员、工程师和决策者在现实应用中优化大型语言模型的部署提供了有价值的见解。
- 异构架构深度学习加速设计方法综述
深度学习加速器的设计方法和电子设计自动化工具经过综合评估,为实现高性能和能源效率提供了全面的视角。
- 评估新兴 AI/ML 加速器:IPU,RDU 和 NVIDIA/AMD GPU
本研究对商业 AI / ML 加速器进行了初步评估和比较,通过对常见 DNN 运算符和其他 AI / ML 工作负载的一系列基准评估,揭示了数据流架构相对传统处理器设计的优势和性能权衡,并为研究原型的设计和性能期望提供了有价值的参考,从而促 - 终身学习 AI 加速器设计原则
生命周期学习的发展需要适合边缘平台的硬件加速器,该研究探讨了如何设计面向无线环境部署的生命周期学习 AI 加速器,以及评估这些加速器的关键功能和指标,并探讨了不同新兴技术在生命周期学习加速器设计中的作用。
- 自主驾驶中的硬件加速器
自动驾驶汽车中的计算平台通过机器学习模型记录大量传感器数据,并进行决策以确保车辆的安全运行。传统的计算机处理器缺乏感知和机器视觉要求的能力和灵活性。硬件加速器是专用的协处理器,可帮助自动驾驶汽车满足更高级别自主性的性能要求。本文概述了机器学 - MRQ: 通过模型重新量化支持多种量化方案
本文介绍了一种新型模型量化方法 MRQ(Model Re-quantization),可将现有的量化模型迅速转换以满足不同的量化需求,克服了重新训练的成本和支持多种量化方案的限制。通过权重校正和舍入误差折叠等新的重量化算法,MobileNe - 优化 Transformer 推理技术综述
本文综述了技术优化变压器网络推断的技术,包括知识蒸馏,修剪,量化,神经架构搜索和轻量级网络设计,以及硬件级优化技术和设计新型硬件加速器,可帮助读者权衡参数 / FLOP 数量和准确性之间的关系。
- MetaML:用于深度学习加速的可定制跨阶段设计流程自动化
本论文介绍了一种新的针对深度神经网络(DNN)硬件加速器的优化框架,它能够快速开发定制化和自动化的设计流程,同时具有高度可定制性和灵活性,通过引入新的优化和转换任务,不需要人类专业知识,可以在保持准确性的同时大幅度降低 DSP 和 LUT - 基于分布偏移检测的深度神经网络的单次在线测试
本篇论文提出了一种一次性测试方案,可以在使用 memristive crossbars 加速的神经网络中执行有效的失效测试,且只需一个测试向量,这可以有效减少内存开销和测试向量数量,同时提高失效覆盖率。
- 树形方法在并行层次分类中的应用
提出一种基于张量运算在硬件加速器上进行高效分层分类的方法,通过将给定语义树节点上的分类得分和标签批次转换为其沿着树向下的所有祖先路径上得分和标签,从而将所有标签转换为其所有祖先路径上的标签,其测试结果为在包含 20 级深度的 117,659 - MMFPGA 上高吞吐量混合精度 CNN 加速器设计
本文研究了深度神经网络在 FPGA 上的优化设计,提出使用多种精度量化来减少计算和数据传输成本,并成功实现了针对混合精度 CNN 的高效硬件加速器,能够达到高精度和高性能的权衡。