在一个开源的 RISC-V 多微核平台上优化基础模型推理

May, 2024

在一个开源的 RISC-V 多微核平台上优化基础模型推理

Optimizing Foundation Model Inference on a Many-tiny-core Open-source RISC-V Platform

Viviane Potocnik, Luca Colagrande, Tim Fischer, Luca Bertaccini, Daniele Jahier Pagliari...

TL;DR通过实现分布式 Softmax 原语并利用 ISA 扩展进行 SIMD 浮点操作数流和指令重复，以及专门的 DMA 引擎来最小化昂贵的主内存访问和容忍其延迟，在开源的 RISC-V 平台上呈现了第一批全流程的 Transformer 模型推理结果。对于仅编码器模型，我们展示了最优实现与基线版本之间高达 12.8 倍的加速比；同时在 HW 平台上实现可比较的计算单位吞吐量，FPU 利用率超过 79％和 294 GFLOPS/W，并比 SoA 加速器实现 2 倍以上的性能。对于仅解码器模型，与基线实现相比，在非自回归（NAR）模式下实现 16.1 倍的加速，而在自回归（AR）模式下实现高达 35.6 倍的加速。与最佳 SoA 专用加速器相比，我们实现了高 2.04 倍的 FPU 利用率。

Abstract

transformer-based foundation models have become crucial for various domains, most notably natural language processing (NLP) or computer vision (CV). These models are predominantly deployed on high-performance GPUs or hardwired accelerators with highly customized, proprietary instructio

transformer-based foundation models risc-v-based general-purpose platforms encoder-only models decoder-only models fpu utilization

发现论文，激发创造

在低功耗 MCU 上优化微型 Transformer 的部署

本研究提出了一种在商业微控制器上对 Transformer 模型进行端到端部署的优化框架，通过优化库和新的推理调度方案，在多个 MCU 平台上实现了更低的延迟和能量消耗。

Apr, 2024

Transformer 推理的全栈优化：一项调查

本文调查了提高 Transformer 模型推理效率的不同方法，包括分析现有模型架构的瓶颈和硬件设计的影响，调度操作的挑战，以及通过神经网络架构搜索来优化 Transformer 模型等研究方向。最后，作者将这些方法应用于一个开源的全栈 DNN 加速器生成器中，并表明这些方法都可以对提高模型推理速度产生影响，其中最优的全栈设计方法可以将速度提高多达 88.7 倍，同时性能基本不受损害

Feb, 2023

DeepSpeed 推理：在前所未有的规模下实现 Transformer 模型的高效推理

本文介绍了 DeepSpeed Inference 这一全面的转换模型推断系统解决方案，以解决目前多样化的转换模型在推断时遇到的挑战，包括多 GPU 推断方案，利用 CPU 和 NVMe 内存进行异构推断以及在实时延迟限制下运行万亿级别的推断等，并且可以比 GPU-only 解决方案处理规模大 25 倍的模型，同时提供高吞吐量。

Jun, 2022

高效扩展 Transformer 推理

该研究旨在提高 Transformers 模型的生成推理效率，并通过多维分区技术、低级优化等策略获得较佳的推理效率和 FLOPS 利用率权衡，从而支持 Token 的大批量处理和长文本生成。

Nov, 2022

一种具有极限边缘智能设备学习能力的精确可扩展 RISC-V DNN 处理器

提出了一种支持多种精度的定点深度神经网络推断和增强设备上学习能力的精度可伸缩的 RISC-V DNN 处理器，通过改进硬件资源利用率，显著提高推断吞吐量和能效，并实现 16.5 倍更高的设备上学习的浮点吞吐量。

Sep, 2023

神经机器翻译的高效推断

该论文通过深度编码器和浅层解码器结构、多头注意力修剪以及将解码器自注意力替换为简化的循环单元等方法，可以在不降低翻译质量的情况下，在 CPU 和 GPU 上分别获得高达 109% 和 84% 的加速，并将参数数量减少 25%。

Oct, 2020

FastFormers: 高效 Transformer 模型的自然语言理解

本研究提出了 FastFormers 来加快基于 Transformer 模型的 NLU 任务的推理效率，可以通过运用知识蒸馏、结构剪枝和数值优化等方法，将预处理模型在 CPU 和 GPU 上的速度提高至 9.8-233.9 倍，节省成本的同时降低能耗。

Oct, 2020

VAQF：面向低位视觉 Transformer 的全自动软硬件协同设计框架

本研究提出了一种名为 VAQF 的框架，该框架可以在 FPGA 平台上为量化的 ViT 模型构建推理加速器，并且可以自动输出所需的量化精度和优化参数设置，以在硬件要求下满足所需的帧速率。通过对基于 DeiT-base 模型的实验结果的评估，实现表明可以在满足 24 帧每秒的帧速率要求的情况下使用 8 位激活量化，以及在使用 6 位激活量化的情况下可以达到 30 帧每秒的目标。

Jan, 2022

Transformer 神经机器翻译模型的高效 8 位量化

本研究尝试利用 INT8/VNNI 指令量化 Transformer 模型，提高推理性能，同时保持不到 0.5% 的准确度下降。研究者在 TensorFlow 中提出了一种新的量化技术，并采用了一种并行处理技术，优化后的结果比最佳 FP32 性能提高了 1.5 倍，讨论了量化深度学习的机会和挑战，并建立了在 Intel CPU 上高效运行推理的最佳实践。

Jun, 2019

TinyFormer：小型设备上高效的 Transformer 设计与部署

本文提出了 TinyFormer，这是一个专门设计用于在微控制器单元上开发和部署资源高效的 transformers 的框架，通过 SuperNAS、SparseNAS 和 SparseEngine 的组合，实现了在 MCUs 上高效部署 sparse models 以及稀疏推理。评估结果表明，TinyFormer 能够以 96.1% 的准确率开发有效的 transformers，并在稀疏推理上相对于 CMSIS-NN 库实现了高达 12.2 倍的加速。TinyFormer 将强大的 transformers 引入了 TinyML 场景，极大地扩展了深度学习应用领域。

Nov, 2023