大型语言模型的进化子网络训练

ICMLJun, 2024

Evolving Subnetwork Training for Large Language Models

Hanqi Li, Lu Chen, Da Ma, Zijian Wu, Su Zhu...

TL;DR基于大规模语言模型参数冗余的启发，我们提出了一种新的训练范式：进化子网络训练（EST），并将其应用于训练 GPT2 和 TinyLlama 模型，从而实现了 26.7％的 FLOPs 节省以及在下游任务中的性能提升，从而减少了训练成本并提高了泛化性能。

Abstract

large language models have ushered in a new era of artificial intelligence research. However, their substantial training costs hinder further development and widespread adoption. In this paper, inspired by the re

large language models evolving subnetwork training training costs flops saving generalization

发现论文，激发创造

通过渐进子网络实现高效的分步预训练

近期大型语言模型的发展引发了对高效预训练方法的关注，本论文提出了一种阶段递增训练的替代框架 -- 渐进子网络训练，其中的一个简单实例是随机路径训练（RaPTr），通过在每一步中只训练模型内的子路径，逐步增加路径长度，RaPTr 可以在对 BERT 和 UL2 语言模型进行更好的预训练损失的同时，相比标准训练，减少 20-33％的 FLOPs，并在其他高效训练方法中具备竞争力甚至更好。此外，RaPTr 在 UL2 上表现出更好的下游性能，对 QA 任务和 SuperGLUE 的改进幅度相比标准训练和堆叠模型可达 1-5％。最后，我们为 RaPTr 提供了理论基础，以证明（a）子网络在各阶段的复杂性递增，以及（b）由于残差连接和层归一化而导致的损失在阶段转换中的稳定性。

Feb, 2024

具有语言特定子网络的数据有效跨语言转移

本文提出了一种在多语言模型中使用语言特定的子网络的新方法，以控制跨语言参数共享，减少冲突，并在微调过程中增加正向迁移能力，结合元学习技术进行优化，通过广泛的分析验证了方法对模型的影响。

Oct, 2022

动态训练和可定制推断的弹性神经网络

通过动态神经网络的方法，我们提出了一种训练大型网络并在推理阶段从中提取子网络的简单方式，以满足模型尺寸或复杂性约束，实验证明该方法可以在单个大型模型中显著缩短训练时间，并在不同子网络尺寸和复杂性上有效提高分离性能。

Dec, 2023

通过自适应优化子网络有效地微调预训练语言模型

本文提出了一种基于梯度反向传播的动态参数选择（DPS）算法，以在有限的目标数据集上对大规模预训练语言模型进行微调，该方法在 GLUE 基准测试中显示出相对于以前的微调方法性能更好且更稳定，并在跨领域转移实验和低资源场景中表现出更好的结果，从而减少了表示崩溃的情况。

Nov, 2022

子网络集成

本论文介绍了一种低成本框架用于构建子网络集合，通过从已训练的母模型中采样、扰动和优化子网络的方式形成子网络集合，研究发现该方法可以显著提高训练效率、参数利用以及泛化性能，同时最小化计算成本，通过利用深度神经网络的潜力来构建更好的系统。

Nov, 2023

muNet: 将预训练的深度神经网络进化为可扩展的自动调整多任务系统

采用预训练深度神经网络层作为基块构建多任务学习系统，通过动态选择相关的先验知识、模型参数和超参数进行自动调优，控制模型规模实现高质量模型与较小的规模之间的权衡，并在 10 个多样化的图像分类任务中，相对于标准调优，提高了平均精度 2.39％而使用了每个任务 47％以上的参数。

May, 2022

高效可拼接的任务适应

通过有效的可缝合任务适应 (ESTA) 框架，我们能够以低延迟、高效率的方式生成一系列满足多样化资源限制的经过优化的模型。

Nov, 2023

为多语言机器翻译学习特定语言子网络

本文提出了 LaSS 方法，采用 LaSS 解决了共同训练多个语言对的性能退化问题，LaSS 利用自己的语言特定子网络为每个语言对学习。在各种变压器体系结构的 IWSLT 和 WMT 数据集上展开全面的实验后发现，LaSS 在 36 种语言对上最多获得 1.2BLEU 的增益，并且在易于扩展到新语言对和零炮击翻译方面表现出强大的泛化性能。LaSS 通过一个 30 种语言对平均为 8.3 BLEU 的零炮击翻译推动性。

May, 2021

深度孵化：通过分而治之训练大模型

本文提出 Deep Incubation 训练方法，将大型深度学习模型分为互相连接的子模块进行训练，并经过实验证明在训练效率和准确率方面优于 end-to-end 训练方法。

Dec, 2022

通过认知神经网络进行语言模型微调

本文提出在大规模语言模型上加入 epinet 网络架构以取得 epistemic neural network (ENN) 优化的结果，使用该方法在 GLUE 任务中，不仅可以达到和 BERT 相同的性能表现，还能使用少两倍的数据。同时，该方法在神经网络生成模型中也表现良好，优于启发式主动学习方法。

Nov, 2022