ClipFormer：用于减轻写入噪声的记忆电阻交叉栅架上的 Transformer 键值剪裁

Feb, 2024

ClipFormer：用于减轻写入噪声的记忆电阻交叉栅架上的 Transformer 键值剪裁

ClipFormer: Key-Value Clipping of Transformers on Memristive Crossbars for Write Noise Mitigation

Abhiroop Bhattacharjee, Abhishek Moitra, Priyadarshini Panda

TL;DR通过 ClipFormer 改进模型，可以在具有非理想电流操作的交叉栏上提高预训练 Vision Transformers 的准确性。

Abstract

transformers have revolutionized various real-world applications from natural language processing to computer vision. However, traditional von-Neumann computing paradigm faces memory and bandwidth limitations in accelerating →

transformers in-memory computing non-volatile memories analog mvm operations clipformer

发现论文，激发创造

探讨使用 Batchnorm 优化在内存计算中缓解不同硬件噪声的作用和限制

本文研究了模拟交叉开关中的非理想误差，通过在线优化进行微调，以减少训练成本和内存，并减少量化误差和非理想误差，提高深度神经网络的性能。

May, 2023

MCUFormer：在内存有限的微控制器上部署视觉 Transformer

本文提出了一种名为 MCUFormer 的硬件算法协同优化方法，用于在内存极为有限的微控制器上部署视觉变换器，实现图像分类任务，通过考虑降维尺寸和补丁分辨率来扩展视觉变换器的搜索空间，并通过操作符集成、补丁嵌入分解和令牌覆写等方法来构建视觉变换器的推理操作库，实验结果表明 MCUFormer 在 STM32F746 微控制器上实现了 320KB 内存的 ImageNet 图像分类任务的 73.62％的 Top-1 准确率。

Oct, 2023

RACE-IT: 用于内存中 Transformer 加速的可重构模拟 CAM - 交叉栏引擎

Transformer 模型使用我们提出的 Compute-ACAM 结构以及使用模拟输入和数字输出的能力，通过在模拟域内对 Transformer 模型中的所有操作进行高效执行来提高性能，并大大降低能耗。

Nov, 2023

TransAxx: 高效逼近计算的 Transformer

本研究使用 Vision Transformer 模型结合近似计算方法分析了在低功耗设备上实现 Transformer 模型的计算要求和性能之间的折衷，并提出了使用蒙特卡洛树搜索算法生成 Vision Transformer 模型的近似加速器的方法，从而在不损失性能的前提下实现了显著的功耗优化。

Feb, 2024

利用计算相变存储进行准确的深度神经网络推断

介绍了一种在内存计算硬件上训练 ResNet 类型卷积神经网络的方法，并提出了一种基于批标准化参数的补偿技术，可以在映射到 PCM 后实现分类精度高达 93.7％的 CIFAR-10 数据集和 71.6％的 ImageNet 基准测试的 top-1 精度。

Jun, 2019

卷积变形器用于视觉

提出了一种基于线性注意力机制的混合体系结构 ——Convolutional X-formers for Vision（CXV）。通过将 Quintic Transformer，Nyströmformer 和 Linear Transformer 等线性注意力机制代替二次注意力机制，来减少 GPU 使用。CXV 在有限的数据和 GPU 资源（核心，内存，功率）场景下，比其他的架构如 Token mixers（例如 ConvMixer，Fnet 和 MLP Mixer），变换模型（如 ViT，CCT，CvT 和混合 Xformers）以及 ResNets 等，更适用于图像分类任务。

Jan, 2022

基于大规模开关式忆阻器的计算即存储模块用于深度神经网络训练

研究了一种使用模拟计算模块和数字系统的混合精度训练方案，在实验中采用了 memristor-based 计算存储内存模块，成功实现了针对大型深度神经网络的有效训练，并评估了模型的抗硬件变化特性。

May, 2023

基于记忆元件的神经形态硬件在神经网络应用中的研究

本研究通过利用 memristive 和 memcapacitive 交叉阵列在低功耗机器学习加速器中的应用，提供了一个综合的深度神经网络 (DNN) 的共同设计框架；该模型采用混合 Python 和 PyTorch 方法实现，考虑了各种非理想因素，在 8 层 VGG 网络上，对 CIFAR-10 数据集分别使用 memristive 和 memcapacitive 交叉阵列，实现了卓越的训练准确率 (90.02% 和 91.03%)；此外，本文还引入了一种使用运算跨导放大器 (OTA) 和电容器模拟 meminductor 设备的新方法，展示了可调节的行为；在 60 MHz 下，180 nm CMOS 技术的晶体管级仿真表明所提出的 meminductor 模拟器具有 0.337 mW 的功耗，进一步在神经形态电路和 CNN 加速器中进行了验证，训练和测试准确率分别达到了 91.04% 和 88.82%，值得注意的是，仅使用 MOS 晶体管确保了单片 IC 制造的可行性，这项研究为探索高效和高性能的机器学习应用的先进硬件解决方案作出了重大贡献。

Mar, 2024

大内存系统上的记忆化加速 Transformer

本研究介绍一种基于缓存优化技术的变压器模型加速方案，通过建立基于大内存系统的注意力数据库来加速注意力计算，从而实现了平均 21％的性能提升（最高 68％），并且在推理准确性上有可忽略的损失。

Jan, 2023

使用帧间通信变换器进行视频实例分割

本研究提出一种使用 Transformers 实现的视频实例语义分割的端到端解决方案，通过利用内存令牌的紧凑表示和交换信息的方式，提供实时视频处理可行的高精度解决方案。

Jun, 2021