人工智能与内存壁

Mar, 2024

AI and Memory Wall

Amir Gholami, Zhewei Yao, Sehoon Kim, Coleman Hooper, Michael W. Mahoney...

TL;DR通过分析编码器和解码器 Transformer 模型，我们展示了在解码器模型中内存带宽如何成为主要的瓶颈，并提出了模型架构、训练和部署策略的重新设计来克服这一内存限制。

Abstract

The availability of unprecedented unsupervised training data, along with neural scaling laws, has resulted in an unprecedented surge in model siz

unsupervised training data neural scaling laws model size compute requirements memory bandwidth

发现论文，激发创造

大型语言模型预训练的高效参数搜索和并行性扩展研究

研究项目侧重于并行和分布式机器学习算法的开发，特别是优化数据处理和预训练一组包括 5 个编码解码器 LLM（从 5.8 亿到 130 亿个参数不等）。我们进行了一项细致的研究，以量化三种机器学习并行性方法之间的关系，特别是探索了微软 DeepSpeed Zero Redundancy Optimizer (ZeRO) 阶段。

Oct, 2023

记忆即一切：加速大型语言模型推理的计算于内存架构综述

大型语言模型的推出带来了自然语言处理领域的重大变革，本文调查了与转换器模型有关的各种 CIM 构架以及它们如何解决现代人工智能计算系统面临的挑战。

Jun, 2024

低内存神经网络训练技术报告

本文研究了神经网络训练所需内存的实际需求量，并系统评估了四种降低训练内存需求的标准技术。研究结果表明，通过选择适当的技术组合，可以在保持较少损失精度的前提下，显著减少训练神经网络所需的内存。

Apr, 2019

利用内存中学习训练 AI 系统的能效限制

学习内存（LIM）是一种最近提出的克服训练机器学习系统中基本内存瓶颈的范式。本文从理论上推导了使用不同的 LIM 方法来训练 AI 系统时能量耗散的新的理论下界，并扩展了这些限制，考虑了训练所使用的浮点运算数量、AI 模型的大小和训练参数的精度。

Feb, 2024

卷积神经网络（CNN）的演进：边缘人工智能的计算与存储带宽

该论文探讨了卷积神经网络在边缘人工智能中的计算要求和存储带宽之间的关系，研究了模型复杂度增加对计算需求和存储访问模式的影响，并提供了计算需求和存储带宽要求之间权衡的比较分析，为设计有效架构和提升边缘设备上的卷积神经网络性能的硬件加速器提供了洞见。

Sep, 2023

降低基礎模型訓練的進入門檻

我们提出了一种基于分析框架的方法，量化突出了训练大型语言模型的进入障碍，并指出了减轻这些障碍的机会。

Apr, 2024

学习内存访问模式

利用深度学习解决内存性能瓶颈问题，采用神经网络进行内存预取，取得更高的准确率和召回率。

Mar, 2018

加速器驱动的数据排列在多核架构上最小化变压器运行时间

提出了一种新颖的内存数据排列策略，通过硬件加速器的内核大小来有效减小芯片外数据访问，特别对于基于广义矩阵乘法（GEMM）的终端到终端变压器模型推理尤为有益。本研究通过在单核和多核系统中实现和评估提出的加速器驱动的数据排列方法，证明了该方法能够实现高达 2.8 倍的速度提升。

Dec, 2023

MTrainS：使用异构内存提高 DLRM 训练效率

通过优化平台内存层次结构，设计 MTrainS 在深度学习推荐模型 (DLRM) 中降低节点数目，优化内存容量，提高训练效率，从而减少功耗和训练成本。

Apr, 2023

深思熟虑：带有内部工作记忆的决策 Transformer

本文提出了一种基于内部工作记忆模块的决策制定代理，可以通过存储、混合和检索信息来改善其在不同下游任务中的训练效率和泛化能力，并进一步证明记忆微调可以增强所提出架构的适应性。

May, 2023