Jul, 2024

探究Transformer语言模型中的低秩训练:效率与扩展分析

TL;DR通过对Transformer-based LLMs中的计算密集型前馈神经网络(FFNs)应用低秩参数化,我们研究表明低秩参数化在尺度上是高效的,能够通过减少参数数量和成本而不显著影响性能,我们开发了宽度和结构化的网络,超过了目前的中型和大型Transformer模型在困惑度和吞吐能力方面的表现。