- 可扩展的无矩阵乘法语言建模
本研究展示了在大规模语言模型中,可以从 LLMs 中完全消除矩阵乘法(MatMul)操作,同时在至少 27 亿参数规模下保持与最先进的 Transformer 模型相当的性能。作者提供了一个 GPU 高效的模型实现,其在训练期间将内存使用量 - OpenTensor:复现更快的矩阵乘法发现算法
OpenTensor 是 AlphaTensor 的复现,通过深度强化学习 (DRL) 发现了一种优于现有方法的矩阵乘法算法。
- 基于全光全连接结构的片上混合衍射神经网络的 1 位量化实现
光衍射神经网络(DNN)是光神经网络(ONN)的一种子集,展现了与电子网络相当的实力。本研究引入了混合衍射神经网络(HDNN),这是一种新颖的架构,将矩阵乘法纳入 DNN 中,以充分利用传统 ONN 和 DNN 的优势,以克服光衍射神经网络 - DYAD: 描述性而拒绝密度高效逼近线性神经网络层
DYAD 是一种基于特殊的近稀疏矩阵结构的快速和内存效率更高的线性层,它能够在不同尺度的基准测试中与普通线性层的性能相媲美,并在训练速度上比 GPU 上的普通线性层更快。
- 稀疏子空间嵌入的最佳嵌入维度
给定任意正实数 θ,我们证明对于 m≥(1+θ) d 且具有每列 O (log^4 (d)) 非零元素的 m×n 随机矩阵 S,它是一个 ε=O_θ(1) 的忽略子空间嵌入。这个结果解答了 Nelson 和 Nguyen(FOCS 2013 - 一系列矩阵乘法例程的自动生成器与 Apache TVM
利用 Apache TVM 开源框架自动生成算法族,以获得高性能的矩阵乘法算法,并自动化生成特定处理器的微内核,提高可移植性、可维护性并简化软件生命周期,同时实现高灵活性并优化解决方案以满足不同数据类型、处理器架构和矩阵形状需求,具有较小的 - 应用 Exo 解决矩阵乘法微内核生成
矩阵乘法(或 GEMM)的优化是近几十年来的需求之一,本研究提出了一种使用 Exo 编译器生成 micro-kernels 的逐步过程,并且性能接近(甚至优于)使用内置函数或汇编代码手动开发的 micro-kernels,同时提高了生成代码 - 双粒度量化:LLM 的高效细粒度量化
该论文介绍了一种称为 Dual Grained Quantization (DGQ) 的新型量化技术,通过将细粒度的 INT4 权重解量化为粗粒度的 INT8 表示,并使用 INT8 内核进行矩阵乘法,来保持卓越性能同时确保快速推理速度。实 - 视觉转换器适应的高效低秩反向传播
提出了一种名为 LBP-WHT 的新方法来加速 Vision Transformers(ViT)的 Fine-tuning 过程,通过将梯度投影到低秩空间来显著减少计算需求,实验证明该方法在多个数据集上有效,并与其他方法相结合以取得更好性能 - 一种快速优化视角:基于张量和 SVM 技巧重构 LLM 中的单层注意力机制,并在矩阵乘法时间内解决
通过迭代贪婪算法,在近似于 ε 的时间内训练了一个损失函数 L (X,Y),其中 ε 是迭代次数,该算法关注大型语言模型、注意力回归、单层注意力网络、矩阵乘法等关键主题。
- 基于采样技术的深度神经网络训练方法在计算资源有限情况下的可拓展性评估
本文通过在大规模 CPU 机器上评估近似矩阵乘法的两种采样方法,提供了负面的理论分析,这表明前馈逼近是可扩展性的障碍。作者指出基于哈希的节点选择方法不能扩展到大量层数,并确定了未来研究的方向。
- 不流泪的快速矩阵乘法:一种约束编程方法
本研究提出一种简单而新颖的基于约束编程的方法,以查找快速矩阵乘法的非交换算法或提供不可行性证明。实验结果表明,我们可以在短时间内找到 $3 imes 3$ 的矩阵的快速矩阵乘法算法。
- AMULET: 自适应矩阵乘法任务
Amulet 框架使用数据库和编译器优化技术来生成适合于特定执行环境的快速代码,相对于现有编译器,Amulet 在各种矩阵乘法任务上都获得了加速效果,可以处理更广泛的计算类型,并且在处理大型矩阵时性能通常接近手工调优的矩阵乘法库的 15%。
- MEMA Runtime Framework: 针对微控制器上的 TinyML 最小化外部存储器访问
提出了基于 MEMA 框架的快速、高效地推导在 TinyML 系统上矩阵乘法外部存储访问最小的推理运行时的方法,该框架考虑了硬件资源限制和问题规模在分析中确定优化的调度和内核,该框架提供了一种解决当前实践中已知问题的方法,并将推导自 MEM - RedMule:用于灵活、高能效的芯片线性代数和 TinyML 训练加速的混合精度矩阵乘操作引擎
该研究旨在解决 TinyML 场景下近传感器低功耗训练的挑战,并提出了一种低功耗特殊加速器 RedMulE,它支持 FP16 和混合 FP8 格式的多精度浮点通用矩阵乘法运算(GEMM-Ops)加速,并成功地使小型机器学习模型在低功耗设备上 - ICML矩阵相乘的无乘法方法
介绍了一种学习算法,用于高效的近似矩阵乘法,其常用特性是需要零次乘积添加操作。实验表明,它比现有方法快 10 倍以上,而且比确切矩阵积快 100 倍。此外,核心操作 - 混合哈希,平均和字节混洗,可以是机器学习的更有前途的构建块,而不是近期 - 双侧稀疏张量核
本文提出了一种新颖的架构来有效地利用权重和激活的稀疏性,通过外积计算原语和位图编码格式将二者结合起来。通过针对现有常见计算模式(矩阵乘法和卷积)的矩阵乘法和卷积算法的协同设计,提出一组新的 ISA 扩展,实现了这种设计,抓住现今深度神经网络 - 一种精细的激光方法和更快的矩阵乘法
本论文提出的改进的激光方法可以更好地限制大多数的张量的值,从而在算术复杂度方面取得了目前最好的界限。
- 半定规划的更快内点方法
本文介绍一种更快的内点法,用于求解具有变量大小的一般半定规划问题,并解释了算法的运行时间和矩阵乘法的指数和相对精度之间的关系。
- BiQGEMM:二进制编码量化深度神经网络中的查找表矩阵乘法
本论文提出了一种针对量化 DNN(deep neural networks)的新型矩阵乘法方法,称为 BiQGEMM。通过一次指令同时访问多个量化权重, BiQGEMM 可以提高计算性能,并通过预计算中间结果来降低计算总量。在大量实验中,B