Jul, 2024

DLO:用于LLMs高效垂直扩展的动态层操作

TL;DR本文介绍了一种名为动态层操作(DLO)的新方法,通过基于层内特征相似性的复杂路由策略,动态地扩展、激活或跳过层来实现对基于Transformer的大型语言模型(LLMs)的垂直扩展。与传统的专家混合(MoE)方法专注于扩展模型的宽度不同,我们的方法针对的是模型的深度,解决了各个输入样本的层表示中存在的冗余问题。我们的框架集成了监督微调(SFT)阶段,消除了资源密集型的持续预训练(CPT)的需求。实验结果表明,DLO不仅优于原始的未扩展模型,而且在显著提高效率的同时,实现了与密集扩展模型相当的结果。我们的工作为构建高效而强大的LLMs提供了一个有希望的方向。一旦被接受,我们将发布我们的实现和模型权重。