ICMLJun, 2024

大型语言模型的进化子网络训练

TL;DR基于大规模语言模型参数冗余的启发,我们提出了一种新的训练范式:进化子网络训练(EST),并将其应用于训练 GPT2 和 TinyLlama 模型,从而实现了 26.7%的 FLOPs 节省以及在下游任务中的性能提升,从而减少了训练成本并提高了泛化性能。