Jun, 2024

可扩展的无矩阵乘法语言建模

TL;DR本研究展示了在大规模语言模型中,可以从 LLMs 中完全消除矩阵乘法(MatMul)操作,同时在至少 27 亿参数规模下保持与最先进的 Transformer 模型相当的性能。作者提供了一个 GPU 高效的模型实现,其在训练期间将内存使用量减少了高达 61%。通过在 FPGA 上构建自定义硬件解决方案,作者证明了超过人类可读吞吐量 13W 的大规模模型的处理效率,使得 LLMs 更接近于类脑的效率。该研究不仅展示了 LLMs 在实现有效性时可以被精简到何种程度,还指出了未来加速器在处理下一代轻量级 LLMs 时应优化的操作类型。