RACE-IT: 用于内存中 Transformer 加速的可重构模拟 CAM - 交叉栏引擎

Nov, 2023

RACE-IT: 用于内存中 Transformer 加速的可重构模拟 CAM - 交叉栏引擎

RACE-IT: A Reconfigurable Analog CAM-Crossbar Engine for In-Memory Transformer Acceleration

Lei Zhao, Luca Buonanno, Ron M. Roth, Sergey Serebryakov, Archit Gajjar...

TL;DRTransformer 模型使用我们提出的 Compute-ACAM 结构以及使用模拟输入和数字输出的能力，通过在模拟域内对 Transformer 模型中的所有操作进行高效执行来提高性能，并大大降低能耗。

Abstract

transformer models represent the cutting edge of Deep Neural Networks (DNNs) and excel in a wide range of machine learning tasks. However, processing these models demands significant computational resources and results in a substantial memory footprint. While →

transformer models in-memory computing analog content addressable memory race-it accelerator analog input

发现论文，激发创造

一种 ReRAM 模拟神经训练加速器的能量、延迟、面积和准确性的多尺度共设计分析

该研究详细分析了使用模拟电阻式存储器（ReRAM）跨栅执行关键矩阵操作以提高加速器性能，并与使用数字 ReRAM 和 SRAM 操作的相关设计进行了比较。结果显示，与类似的数字版加速器块相比，该模拟加速器具有能效更高的优势，并且可以成为进一步架构研究的基础。

Jul, 2017

面向仅限 CAM 的 DNN 推理的全栈优化

基于赛道存储器 (RTM) 实现的关联处理器 (APs) 和三值权重神经网络的算法优化结合的新型编译流路，可显著提高 ResNet-18 在 ImageNet 上的能效，同时保持软件准确性。

Jan, 2024

X-TIME: 用于加速基于 CAMs 的表格数据机器学习的内存引擎

在数据科学领域，结构化或表格形式的数据是最常见的格式。然而，在机器学习模型从表格中学习时，相比于简单的方法，深度学习模型的准确性要低得多。本文提出一种模拟 - 数字一体化架构，通过实现全新的高精度模拟内容寻址内存和可编程片上网络，实现了一种高效地实现基于树的机器学习模型（如 XGBoost 和 CatBoost）推理的方案。在 16 纳米技术完成的单芯片上，性能相比于最先进的 GPU 具有 119 倍的较低时延和 9740 倍的更高吞吐量，能够极大地加速科学发现。

Apr, 2023

TIMELY: 将 PIM 加速器中的数据移动和接口推向本地和时域

本文提出一种名为 TIMELY 的创新性处理内存加速器，通过采用模拟数据局部性、时域接口和仅一次输入读取的映射方法，最大限度地提高了能效，并在能效、计算密度和吞吐量上优于已有的 R$^2$PIM 加速器。

May, 2020

一种用于多位和大规模向量矩阵乘法的全模拟存储计算架构

通过引入 In-charge computing 和 In-time interconnection 的创新 AiMC 架构 AiDAC，提高了多位计算效率，减少了数据转换时间，支持大规模的全模拟多位向量矩阵乘法运算，并保持高精度计算，同时具备高并行性、低延迟和高能效优势。

Dec, 2023

针对量化 Transformer 的高能效注意力和 Softmax 加速器

该论文提出了 ITA，一种新颖的加速器架构，用于 Transformer 模型和相关模型的高效推理，通过利用 8 位量化和一种仅操作整数值的创新 softmax 实现，在嵌入式系统上实现了低功耗和高效能。ITA 在能效上与最先进的 Transformer 加速器相媲美，达到 16.9 TOPS/W，而在面积效率方面以 22 纳米完全耗尽硅上绝缘体技术满足 0.8 V 下的每平方毫米 5.93 TOPS/mm² 的性能。

Jul, 2023

ClipFormer：用于减轻写入噪声的记忆电阻交叉栅架上的 Transformer 键值剪裁

通过 ClipFormer 改进模型，可以在具有非理想电流操作的交叉栏上提高预训练 Vision Transformers 的准确性。

Feb, 2024

AnalogNAS: 一种用于准确推断的神经网络设计框架，基于模拟内存计算

本文提出了一种名为 AnalogNAS 的自动化 DNN 设计框架，目标是部署在模拟内存计算推理加速器上，通过大量的硬件模拟，展示 AnalogNAS 在各种 TinyML 任务上的性能，以及在 64 核 IMC 芯片上实现的模型较 SOTA 模型具有更高的准确性。

May, 2023

TransAxx: 高效逼近计算的 Transformer

本研究使用 Vision Transformer 模型结合近似计算方法分析了在低功耗设备上实现 Transformer 模型的计算要求和性能之间的折衷，并提出了使用蒙特卡洛树搜索算法生成 Vision Transformer 模型的近似加速器的方法，从而在不损失性能的前提下实现了显著的功耗优化。

Feb, 2024

记忆即一切：加速大型语言模型推理的计算于内存架构综述

大型语言模型的推出带来了自然语言处理领域的重大变革，本文调查了与转换器模型有关的各种 CIM 构架以及它们如何解决现代人工智能计算系统面临的挑战。

Jun, 2024