Jun, 2024

在高效基础上构建:利用结构化前馈层有效训练LLMs

TL;DR通过结构化的前馈网络,使用线性层近似来减少大型语言模型的参数数量和计算成本,同时提出一种自我引导训练的方法来改善这种近似所表现出的训练动力学,从而在训练和推断中实现高效和有效的结果。