Mar, 2024
LISA: 用于节省内存的大型语言模型微调的逐层重要性采样
LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning
Rui Pan, Xiang Liu, Shizhe Diao, Renjie Pi, Jipeng Zhang...
TL;DR通过观察 Low-Rank Adaptation 在 fine-tuning 任务中的层内特性,我们发现了一种不同层之间权重归一化的不寻常偏度,利用这一关键观察,我们发现了一种非常简单的训练策略 ——Layerwise Importance Sampled AdamW(LISA),它在减少内存消耗的同时,超越 LoRA 及全参数训练,在大范围设置的下游 fine-tuning 任务中表现出色。