ACLJun, 2024

MEFT:通过稀疏适配器实现内存高效微调

TL;DR通过使用较大的尺寸但内存高效的适配器,结合语言模型中前馈网络的固有激活稀疏性以及中央处理器内存相对于图形处理器更大的容量,我们提出了一种改进的方法来优化在有限资源下大型语言模型的微调性能。通过将较大尺寸的适配器的参数存储和更新在中央处理器上,并采用类似于专家混合 (MoE) 的架构来减少不必要的中央处理器计算和图形处理器之间的通信量,尤其是在 PCI Express (PCIe) 的有限带宽下,我们的方法可以实现与具有更大内存容量的情况下相媲美的微调结果,即使在较为有限的资源下,如只有 24GB 内存单 GPU 设置下,也能达到可接受的训练效率损失。