Marsellus:一种异构 RISC-V AI-IoT 终端节点 SoC,具有 2 至 8 位 DNN 加速和 30%增强自适应体偏置
基于深度神经网络的多加速器系统中,选择适当的加速器组合和高效的神经网络映射策略是一个具有挑战性的问题,我们提出了一个名为 MARS 的新型映射框架,可以执行计算感知的加速器选择,并应用通信感知的分片策略来最大化并行性,实验证明,与基准相比,MARS 可以平均减少 32.2% 的延迟,并且相对于对应的最先进方法,可以减少 59.4% 的异构模型的延迟。
Jul, 2023
Shaheen 是首个基于 RISC-V ISA 的异构主机 + 加速器架构完全基于 ULP SoC 硅原型,集成了 Linux 可用的 RV64 核心,符合 v1.0 核准的 Hypervisor 扩展,配备时序通道保护,同时还集成了用于通用 DSP 和减少和混合精度 ML 优化的 RV32 核心的高度可编程、能效和面积高效的多核集群,该 SoC 的能力已在与 nano-UAV 应用相关的各种基准测试上得到证明。
Jan, 2024
提出了一种支持多种精度的定点深度神经网络推断和增强设备上学习能力的精度可伸缩的 RISC-V DNN 处理器,通过改进硬件资源利用率,显著提高推断吞吐量和能效,并实现 16.5 倍更高的设备上学习的浮点吞吐量。
Sep, 2023
通过提供自动化的完整开发流程,MATADOR 能够使用 Tsetlin Machine 模型在 SoC-FPGA 上实现优化的加速器设计,达到了高速、资源节约和功耗有效的结果,相较于现有的量化和二值化深度神经网络实现,MATADOR 加速器设计可达到 13.4 倍的更快速度、7 倍的更节约资源和 2 倍的更节约功耗。
Mar, 2024
本文介绍了一种 FPGA 加速神经网络评估的异构计算系统,通过利用 DSP 和 LUT 的不同资源优势进行计算。作者运用强化学习算法对系统进行优化,使得该系统在减少延迟的同时提高了精度表现。
Dec, 2021
通过大规模的 RTL 级故障注入以及选择性保护硬件结构,本研究对 Arm 的 Ethos-U55 进行可靠性研究,展示了满足 ASIL-D 安全标准的优化配置,并在仅增加 38% 面积开销的情况下实现安全性。
Apr, 2024
本文提出了一种基于可重构智能表面 (RIS) 的移动边缘计算 (MEC) 结合人工智能 (AI) 和机器学习 (ML) 的架构,在最大化学习性能的前提下,通过联合优化移动用户的传输功率、基站的波束成形向量和 RIS 的相移矩阵,以最小化参与用户的最大学习误差。仿真结果证明了部署 RIS 和采用本文算法相比各种基准算法均能显著提高性能,并且在基于 CARLA 平台和 SECOND 网络构建的统一通信 - 训练 - 推理平台上演示了应用于自动驾驶中的三维物体检测的案例。
Dec, 2020
结合 Composition of Experts(CoE)、流数据流和三层内存系统解决了人工智能内存瓶颈的问题,并介绍了 Samba-CoE,一个包含 150 个专家和一万亿总参数的 CoE 系统,部署在 SambaNova SN40L Reconfigurable Dataflow Unit (RDU) 上,通过引入三层内存系统、专用的 RDU 网络和多个 RDU 插槽实现了速度提升,有效减少机器占用空间并加快模型切换时间。
May, 2024
本文介绍了一种可提高 IoT 应用程序性能和节能的 IoT 节点架构 SamurAI,旨在优化节点的机器学习能力、数据传输和能源管理。
Apr, 2023
最近的大规模语言模型等新型大规模混合模态工作负载大大增加了硬件的计算和内存需求。为了应对不断增长的需求,设计可扩展的硬件架构成为一个关键问题。在最近的解决方案中,基于 2.5D 硅互联器多芯片模块(MCM)的人工智能加速器已被广泛探索,由于其在低工程成本和可组合性方面具有显著优势。然而,以前的 MCM 加速器是基于具有固定数据流的同构架构,对于高度异构的多模型工作负载存在重大挑战,因为它们的工作负载适应性有限。因此,在本研究中,我们探索了采用异构数据流 MCM 人工智能加速器的机会。我们确定了在异构数据流 MCM 人工智能加速器上进行多模型工作负载调度是一个重要且具有挑战性的问题,由于其重要性和规模,即使在 6x6 芯片的单模型情况下,也达到 O(10 ^ 18)规模。我们开发了一组启发式方法来遍历巨大的调度空间,并将它们整理成具有高级技术(如芯片间流水线)的调度器。我们对十种多模型工作负载场景进行的评估(包括数据中心多租户和增强现实 / 虚拟现实应用)显示了我们方法的有效性,相比于同构基线,平均能减少 35.3% 和 31.4% 的能量 - 延迟产品(EDP)。
May, 2024