OpenTensor:复现更快的矩阵乘法发现算法
介绍了一种学习算法,用于高效的近似矩阵乘法,其常用特性是需要零次乘积添加操作。实验表明,它比现有方法快 10 倍以上,而且比确切矩阵积快 100 倍。此外,核心操作 - 混合哈希,平均和字节混洗,可以是机器学习的更有前途的构建块,而不是近期研究和硬件投资重点的稀疏、因式分解和 / 或标量量化矩阵乘积。
Jun, 2021
通过对张量运算(矩阵乘法和卷积)应用基于样本的近似,提出了一种用于深度神经网络加速训练的新技术。应用到 MLP 和 CNN 网络的 MNIST,CIFAR-10 和 ImageNet 数据集的训练实验结果表明,该方法可以大幅度减少计算量和通讯量,并以不会对最终测试准确率产生可感知影响的方式提升训练速度。
May, 2018
该论文介绍了一个基于深度学习工作负载的张量程序优化学习框架,其通过学习领域特定的统计成本模型来引导张量操作实现的搜索,进而加速搜索,实现性能与手动调整的图书馆竞争力相当。
May, 2018
我们提出了一个通用的开源框架,旨在促进高效、个性化的数值矩阵乘法运算(MMM)。该框架提供了两个主要贡献:第一,一个经过优化的、自动化的算术数据通路生成流水线,可以实现高度定制化的脉动式 MMM 核心;第二,生成的核心能够无缝集成到用户代码中,无论使用的是哪种编程语言,而无需进行修改。该框架在多样化的高性能计算工作负载中展现了能效提升的系统性效果,这些工作负载展示了多种数字需求,如人工智能推理和海面高度计算。在人工智能推理方面,我们考虑了一系列最先进的神经网络模型,包括 ResNet18、ResNet34、ResNet50、DenseNet121、DenseNet161、DenseNet169 和 VGG11,结合了两个数据集、两种计算机格式和 27 种不同的中间算术数据通路。我们的方法在所有情况下都能显著减少能耗,其中一个明显的例子是在使用 ResNet50 进行 ImageNet 推理时,IEEE754-32 的能耗降低了 3.3 倍,Bfloat16 的能耗降低了 1.4 倍。在保持 82.3% 和 86% 的准确率的同时,与传统的浮点数单元(FPUs)所实现的准确率相当。在 SSH 计算方面,我们的方法通过使用双精度字实现了完全可重现的结果,超过了传统双精度和四倍精度浮点数运算器(FPUs)的准确率。我们的方法相比 IEEE754-64 和 IEEE754-128,最低提高了 5 倍和 27 倍的 SSH 计算准确性,从而在每单位功耗方面的准确度提升分别为 5.6 倍和 15.1 倍。
May, 2024
量子电路中 T 门计数的最小化是实现容错量子计算的关键挑战之一,本文提出了一种基于深度强化学习的方法 AlphaTensor-Quantum,利用张量分解与 T 门优化之间的关系,通过引入量子计算的领域专业知识和利用 gadgets,显著降低了优化电路的 T 门计数,从而在算术基准测试中超越了现有的 T 门计数优化方法,同时还发现了一种类似于 Karatsuba 算法的高效乘法算法,并成功优化了 Shor 算法中的相关算术计算和量子化学模拟,实现了在完全自动化的方式下,优化相关量子电路,节省了数百小时的研究时间。
Feb, 2024
使用矩阵拟态张量框架实现多线性数据分析优化的同时学习最佳线性映射和相应张量表示,通过变量投影捕捉变换和表示之间的耦合关系,并通过黎曼优化学习正交变换以保持线性映射的可逆性。
Jun, 2024
本研究介绍了一种使用二层求和乘积网络(SPN)的方法,通过学习从数据中的边缘权重(三元)来获得深度神经网络(DNN)层中矩阵乘法的低成本近似,同时应用知识蒸馏,实现对 DNN 中乘法操作数量的预算,从而在保持预测性能的同时,实现乘法操作数量的大幅度减少。
Dec, 2017
本研究提出了一种新的框架 NeuralMatrix,可以在一个单一的通用矩阵乘法加速器上计算多功能的深度神经网络,同时在性能和特定应用的加速水平方面与 CPU 和 GPU 等通用处理器相比具有优势。
May, 2023
该论文介绍了 TensorIR 编译器抽象,用于优化具有张量计算原语的程序,通过 TensorIR 编译可以自动化优化深度学习模型,实验结果表明 TensorIR 编译使用特定的硬件后端的张量计算原语,并在各平台上提供了与手动优化系统相当的性能竞争力。
Jul, 2022
将 Maddness 方法应用于 MatMul 任务,通过基于哈希的 PQ 索引和查找表达到高效能与高能效的加速器。
Nov, 2023