Marsellus：一种异构 RISC-V AI-IoT 终端节点 SoC，具有 2 至 8 位 DNN 加速和 30％增强自适应体偏置

May, 2023

Marsellus：一种异构 RISC-V AI-IoT 终端节点 SoC，具有 2 至 8 位 DNN 加速和 30％增强自适应体偏置

Marsellus: A Heterogeneous RISC-V AI-IoT End-Node SoC with 2-to-8b DNN Acceleration and 30%-Boost Adaptive Body Biasing

Francesco Conti, Gianna Paulin, Davide Rossi, Alfio Di Mauro, Georg Rutishauser...

TL;DR研究了一种在低功耗下运行的数字信号处理器，用于人工智能物联网系统中的深度神经网络推断和浮点运算，结合硬件加速达到高效率运行。

Abstract

Emerging Artificial Intelligence-enabled Internet-of-Things (ai-iot) System-on-a-Chip (soc) for augmented reality, personalized healthcare, and nano-robotics need to run many diverse tasks within a power envelope

ai-iot soc dnn inference digital signal processing floating-point

发现论文，激发创造

MARS：在自适应多加速器系统上利用多层并行性优化 DNN 工作负载

基于深度神经网络的多加速器系统中，选择适当的加速器组合和高效的神经网络映射策略是一个具有挑战性的问题，我们提出了一个名为 MARS 的新型映射框架，可以执行计算感知的加速器选择，并应用通信感知的分片策略来最大化并行性，实验证明，与基准相比，MARS 可以平均减少 32.2% 的延迟，并且相对于对应的最先进方法，可以减少 59.4% 的异构模型的延迟。

Jul, 2023

基于异构 RISC-V 的安全纳米无人机导航 SoC

Shaheen 是首个基于 RISC-V ISA 的异构主机 + 加速器架构完全基于 ULP SoC 硅原型，集成了 Linux 可用的 RV64 核心，符合 v1.0 核准的 Hypervisor 扩展，配备时序通道保护，同时还集成了用于通用 DSP 和减少和混合精度 ML 优化的 RV32 核心的高度可编程、能效和面积高效的多核集群，该 SoC 的能力已在与 nano-UAV 应用相关的各种基准测试上得到证明。

Jan, 2024

一种具有极限边缘智能设备学习能力的精确可扩展 RISC-V DNN 处理器

提出了一种支持多种精度的定点深度神经网络推断和增强设备上学习能力的精度可伸缩的 RISC-V DNN 处理器，通过改进硬件资源利用率，显著提高推断吞吐量和能效，并实现 16.5 倍更高的设备上学习的浮点吞吐量。

Sep, 2023

MATADOR：面向边缘应用的自动化片上系统特斯林机设计生成

通过提供自动化的完整开发流程，MATADOR 能够使用 Tsetlin Machine 模型在 SoC-FPGA 上实现优化的加速器设计，达到了高速、资源节约和功耗有效的结果，相较于现有的量化和二值化深度神经网络实现，MATADOR 加速器设计可达到 13.4 倍的更快速度、7 倍的更节约资源和 2 倍的更节约功耗。

Mar, 2024

N3H-Core: 神经元设计的基于 FPGA 的异构计算核心神经网络加速器

本文介绍了一种 FPGA 加速神经网络评估的异构计算系统，通过利用 DSP 和 LUT 的不同资源优势进行计算。作者运用强化学习算法对系统进行优化，使得该系统在减少延迟的同时提高了精度表现。

Dec, 2021

对 Arm Ethos-U55 嵌入式机器学习加速器软错误容忍性的表征

通过大规模的 RTL 级故障注入以及选择性保护硬件结构，本研究对 Arm 的 Ethos-U55 进行可靠性研究，展示了满足 ASIL-D 安全标准的优化配置，并在仅增加 38% 面积开销的情况下实现安全性。

Apr, 2024

利用可重构智能表面协助的异构学习任务的移动边缘计算

本文提出了一种基于可重构智能表面 (RIS) 的移动边缘计算 (MEC) 结合人工智能 (AI) 和机器学习 (ML) 的架构，在最大化学习性能的前提下，通过联合优化移动用户的传输功率、基站的波束成形向量和 RIS 的相移矩阵，以最小化参与用户的最大学习误差。仿真结果证明了部署 RIS 和采用本文算法相比各种基准算法均能显著提高性能，并且在基于 CARLA 平台和 SECOND 网络构建的统一通信 - 训练 - 推理平台上演示了应用于自动驾驶中的三维物体检测的案例。

Dec, 2020

SambaNova SN40L：通过数据流和专家组合扩展 AI 的内存墙

结合 Composition of Experts（CoE）、流数据流和三层内存系统解决了人工智能内存瓶颈的问题，并介绍了 Samba-CoE，一个包含 150 个专家和一万亿总参数的 CoE 系统，部署在 SambaNova SN40L Reconfigurable Dataflow Unit (RDU) 上，通过引入三层内存系统、专用的 RDU 网络和多个 RDU 插槽实现了速度提升，有效减少机器占用空间并加快模型切换时间。

May, 2024

SamurAI: 具有事件驱动唤醒和嵌入式机器学习加速的多功能物联网节点

本文介绍了一种可提高 IoT 应用程序性能和节能的 IoT 节点架构 SamurAI，旨在优化节点的机器学习能力、数据传输和能源管理。

Apr, 2023

SCAR: 在异构多芯片模块加速器上调度多模型 AI 工作负载

最近的大规模语言模型等新型大规模混合模态工作负载大大增加了硬件的计算和内存需求。为了应对不断增长的需求，设计可扩展的硬件架构成为一个关键问题。在最近的解决方案中，基于 2.5D 硅互联器多芯片模块（MCM）的人工智能加速器已被广泛探索，由于其在低工程成本和可组合性方面具有显著优势。然而，以前的 MCM 加速器是基于具有固定数据流的同构架构，对于高度异构的多模型工作负载存在重大挑战，因为它们的工作负载适应性有限。因此，在本研究中，我们探索了采用异构数据流 MCM 人工智能加速器的机会。我们确定了在异构数据流 MCM 人工智能加速器上进行多模型工作负载调度是一个重要且具有挑战性的问题，由于其重要性和规模，即使在 6x6 芯片的单模型情况下，也达到 O（10 ^ 18）规模。我们开发了一组启发式方法来遍历巨大的调度空间，并将它们整理成具有高级技术（如芯片间流水线）的调度器。我们对十种多模型工作负载场景进行的评估（包括数据中心多租户和增强现实 / 虚拟现实应用）显示了我们方法的有效性，相比于同构基线，平均能减少 35.3% 和 31.4% 的能量 - 延迟产品（EDP）。

May, 2024