Feb, 2024

使用并行低秩适配器从头训练神经网络

TL;DR深度学习模型的可扩展性受到计算资源、内存和通讯的根本限制。本文在模型预训练中探索了低秩适应(LoRA)方法的应用,介绍了 LoRA-the-Explorer(LTE)算法,通过在计算节点上进行多个低秩头的并行训练来减少同步频率,使用不同视觉数据集进行广泛实验,并证明 LTE 在标准预训练中具有竞争力。