Jul, 2024

在单个GPU上可扩展的学习模型池:一种高效的子空间训练策略

TL;DR本研究提出了一种名为MEHL-Soup的内存高效超平面学习汤(Memory Efficient Hyperplane Learned Soup),通过将学习汤弄成一个超平面优化问题,并引入块坐标梯度下降来学习混合系数,从而解决了学习汤由于加载所有微调模型和建立一个大的计算图而面临的内存和时间开销的问题。进一步扩展为MEHL-Soup+,以分层的方式进行。实验证明,MEHL-Soup(+)在测试准确性方面优于Learned-Soup(+),还可以减少超过13倍的内存使用量。此外,MEHL-Soup(+)可以在单个GPU上运行,并且与Learned-Soup相比,在学习汤构建方面速度提高了9倍。