Feb, 2024

LoRA 遇见 Dropout: 一个统一框架下的研究

TL;DR基于对参数高效 LoRA 的研究,我们重新审视了特定于 Transformer 的 Dropout 方法的数学和经验上的等价性和区别,并基于此提出了一个统一的框架,揭示了当涉及到有限可训练参数时它们的新偏好和性能比较。这个框架还允许我们将最有利的方面融合成一个名为 HiddenKey 的新的 Dropout 方法,广泛的实验证实 HiddenKey 在多个模型和任务上具有显著的优势和足够性,将其作为大语言模型高性能和参数高效微调的首选方法。