While fine-tuninglarge language models (LLMs) for specific tasks often
yields impressive results, it comes at the cost of memory inefficiency due to
back-propagation in gradient-based training. Memory-efficient
通过提出 Adaptive Zeroth-order Tensor-Train Adaption (AdaZeta) 框架,本文致力于改进 ZO 方法的性能和收敛性,主要关注的问题包括维度相关的 ZO 估计准确性、大规模 ZO 微调任务中的发散问题,通过详细的理论分析和实验结果论证了 AdaZeta 框架在准确性、内存效率和收敛速度方面的有效性。
DeepZero 是一个基于 Zeroth-order optimization 的深度学习框架,通过三个主要创新使得 ZO 优化可用于深度神经网络的训练,同时实现了与一阶优化相当的性能,其优点包括坐标梯度估计(CGE)在训练准确性和计算效率上的优势,以及利用模型剪枝方法扩展稀疏 DL 先验信息的 ZO 训练协议,并通过特征重用和前向并行化方法提高 ZO 训练的实际实施。