Mar, 2024

LISA: 用于节省内存的大型语言模型微调的逐层重要性采样

TL;DR通过观察 Low-Rank Adaptation 在 fine-tuning 任务中的层内特性,我们发现了一种不同层之间权重归一化的不寻常偏度,利用这一关键观察,我们发现了一种非常简单的训练策略 ——Layerwise Importance Sampled AdamW(LISA),它在减少内存消耗的同时,超越 LoRA 及全参数训练,在大范围设置的下游 fine-tuning 任务中表现出色。