Mar, 2023

通过参数高效架构扩展预训练语言模型的深度

TL;DR本文提出一种基于 MPO 分解的高度参数化效率的方法,可将预训练语言模型(PLMs)扩展到更深的模型深度,并通过共享主要信息和保留层特定辅助信息的组合,实现模型大小的降低和性能提升。