- 可扩展的无矩阵乘法语言建模
本研究展示了在大规模语言模型中,可以从 LLMs 中完全消除矩阵乘法(MatMul)操作,同时在至少 27 亿参数规模下保持与最先进的 Transformer 模型相当的性能。作者提供了一个 GPU 高效的模型实现,其在训练期间将内存使用量 - 利用前瞻解码打破 LLM 推断的顺序依赖性
使用准确并行的预读解码算法加速大型语言模型的自回归解码,从而减少总解码步骤,提高解码速度并充分发挥现代加速器的并行处理能力。
- 自回归 Transformer API 推理效率度量的廉价评估
介绍了一种新的度量模型推理效率的 metric 理想运行时间(idealized runtime),对自回归 Transformer 模型进行了高效的估计。使用这些方法,作者对十种最先进的 LLM 进行了比较,并提出了多项结论,包括一些 A - 2.5D 芯片平台中的硅光子学机器学习加速器
本文描述了如何将光计算和通信集成到 2.5D 芯片平台中,从而驱动一类新型的可持续扩展的机器学习硬件加速器,以加速新兴的机器学习工作负载,通过跨层设计、硬件 / 软件协同设计和硅光子设计制备。
- 路径:面向机器学习的异步分布式数据流
我们设计了一种新型大规模编排层,Pathways,它能够探索新的系统和机器学习研究想法,同时保持目前模型的先进性能。Pathways 使用异步 operator 的分片数据流图,在数千个加速器上高效地安排异构并行计算,同时通过专用互连协调数 - DNNFuser:基于生成式预训练转换器的 DNN 加速器层融合通用映射器
本文提出了一种基于 Transformer 的 DNNFuser 映射器,专注于处理网络中的层融合映射空间,在一次推理传递内,DNNFuser 能够与高度优化的搜索映射器相匹配的性能推断出解决方案,速度提高了 66x 至 127x
- 自注意力不需要 $O (n^2)$ 的内存
提出一种对 attention 算法的简化,使其在处理长序列时更省内存,并对其进行扩展,以此降低 self-attention 的内存消耗,同时保证数值稳定性和可微分性,通过测试结果表明,这样可以让 self-attention 在推断和不 - ICMLAuto-NBA:网络、位宽和加速器联合空间的高效搜索
通过 Auto-NBA 框架,我们能够有效地在巨大的联合设计空间中为每个目标数据集和加速器规范定位最佳设计,使用异构采样策略实现无偏搜索,以及配备通用可微加速器搜索引擎的新兼搜寻流程。Auto-NBA 生成的网络和加速器在搜索时间、任务准确 - 卷积神经网络边缘 TPU 加速器评估
本文介绍 Edge TPUs 的微体系结构细节、它们在不同计算生态中的性能表现以及开发高精度机器学习模型来评估加速器主要性能指标的努力,并讨论了 Edge TPU 加速器在不同结构的 CNN 上的性能表现。
- 机器学习加速器调查和基准测试
本文研究了公开宣布具有性能和功耗数字的多核处理器和加速器的现状,发现其中一些趋势,包括功耗、数字精度以及推理与训练等方面的趋势,并选择并测试了两个低尺寸、重量和功率的商用加速器的实际表现,将其与报道的性能和功耗数值进行比较,并将其与嵌入式应 - 数据回声加速神经网络训练
本文介绍了一种名为‘数据回声’的技术,通过重复使用较早阶段的中间输出,以减少早期训练管道阶段的计算总量,以加速神经网络模型的训练。此方法可以达到与传统模型预测表现预测性能相当,但使用更少的上游计算量。
- 跨新兴量子架构的社区检测
该论文提出,在量子计算机在 HPC 生态系统中扮演加速器的路线图中,为解决真实世界的问题,我们需要发展便携、架构无关的量子 - 经典混合框架,并为社区检测问题展示了基于量子退火和基于门的通用量子计算范式的一个应用。
- 位加速:一种位级动态可组合架构,用于加速深度神经网络
本文提出一种新的 DNN 加速器设计 ——Bit Fusion,通过引入动态位级融合/分解,实现了对 DNN 层位宽进行动态匹配,提高了计算性能且无损精度。通过与现有 DNN 加速器模型的比较实验,Bit Fusion 在面积、频率与工艺技 - 实用统计学
讨论在高能物理分析中出现的统计问题,重要的是要投入大量的人力和资金来进行好的数据统计分析,以提取出最佳信息。
- NIPS探索卷积神经网络中稀疏结构的规律性
本研究分析稀疏性对深度神经网络加速器的设计效率和预测精度的影响,证明了相对于细粒度稀疏性,粗粒度稀疏性能够在保持同等精度的前提下获得更好的压缩率和更高效的硬件设计
- 暗硅时代的黑暗内存和加速器丰富的系统优化
在 Dark Silicon 时代,Dark Memory 状态对于算法并行性和局部性与硬件的协同设计是实现能效和高性能的关键,并通过创建特定加速器和使用 Pareto 曲线来解决能源 / 操作和 mm2 / (ops/s)度量空间的能量性