RACE-IT: 用于内存中 Transformer 加速的可重构模拟 CAM - 交叉栏引擎
该研究详细分析了使用模拟电阻式存储器(ReRAM)跨栅执行关键矩阵操作以提高加速器性能,并与使用数字 ReRAM 和 SRAM 操作的相关设计进行了比较。结果显示,与类似的数字版加速器块相比,该模拟加速器具有能效更高的优势,并且可以成为进一步架构研究的基础。
Jul, 2017
基于赛道存储器 (RTM) 实现的关联处理器 (APs) 和三值权重神经网络的算法优化结合的新型编译流路,可显著提高 ResNet-18 在 ImageNet 上的能效,同时保持软件准确性。
Jan, 2024
在数据科学领域,结构化或表格形式的数据是最常见的格式。然而,在机器学习模型从表格中学习时,相比于简单的方法,深度学习模型的准确性要低得多。本文提出一种模拟 - 数字一体化架构,通过实现全新的高精度模拟内容寻址内存和可编程片上网络,实现了一种高效地实现基于树的机器学习模型(如 XGBoost 和 CatBoost)推理的方案。在 16 纳米技术完成的单芯片上,性能相比于最先进的 GPU 具有 119 倍的较低时延和 9740 倍的更高吞吐量,能够极大地加速科学发现。
Apr, 2023
本文提出一种名为 TIMELY 的创新性处理内存加速器,通过采用模拟数据局部性、时域接口和仅一次输入读取的映射方法,最大限度地提高了能效,并在能效、计算密度和吞吐量上优于已有的 R$^2$PIM 加速器。
May, 2020
通过引入 In-charge computing 和 In-time interconnection 的创新 AiMC 架构 AiDAC,提高了多位计算效率,减少了数据转换时间,支持大规模的全模拟多位向量矩阵乘法运算,并保持高精度计算,同时具备高并行性、低延迟和高能效优势。
Dec, 2023
该论文提出了 ITA,一种新颖的加速器架构,用于 Transformer 模型和相关模型的高效推理,通过利用 8 位量化和一种仅操作整数值的创新 softmax 实现,在嵌入式系统上实现了低功耗和高效能。ITA 在能效上与最先进的 Transformer 加速器相媲美,达到 16.9 TOPS/W,而在面积效率方面以 22 纳米完全耗尽硅上绝缘体技术满足 0.8 V 下的每平方毫米 5.93 TOPS/mm² 的性能。
Jul, 2023
通过 ClipFormer 改进模型,可以在具有非理想电流操作的交叉栏上提高预训练 Vision Transformers 的准确性。
Feb, 2024
本文提出了一种名为 AnalogNAS 的自动化 DNN 设计框架,目标是部署在模拟内存计算推理加速器上,通过大量的硬件模拟,展示 AnalogNAS 在各种 TinyML 任务上的性能,以及在 64 核 IMC 芯片上实现的模型较 SOTA 模型具有更高的准确性。
May, 2023
本研究使用 Vision Transformer 模型结合近似计算方法分析了在低功耗设备上实现 Transformer 模型的计算要求和性能之间的折衷,并提出了使用蒙特卡洛树搜索算法生成 Vision Transformer 模型的近似加速器的方法,从而在不损失性能的前提下实现了显著的功耗优化。
Feb, 2024
大型语言模型的推出带来了自然语言处理领域的重大变革,本文调查了与转换器模型有关的各种 CIM 构架以及它们如何解决现代人工智能计算系统面临的挑战。
Jun, 2024