Jan, 2024

AttentionLego:一种用于空间可扩展大型语言模型加速器的开源构建模块与内存中处理技术

TL;DR使用 Transformer 架构的大型语言模型(LLMs)在自然语言处理、多模式生成人工智能和面向代理的人工智能领域取得了巨大成功。为了解决通用图形处理单元(GPUs)在计算过程中的输入 / 输出带宽需求问题,研究开发了一种全定制化的基于自注意力机制的加速器 AttentionLego,用于构建可扩展的 LLM 处理器。AttentionLego 基于处理内存(PIM)技术提供了基本实现,采用了 PIM 基础的矩阵 - 向量乘法和查找表 - Softmax 设计。开源代码可在线获取:this https URL