Jan, 2024

Astraios: 参数高效调整代码的大规模语言模型

TL;DR基于 28 个调优方法和 4 个模型尺寸,通过对 5 项任务和 8 个不同数据集的研究,我们发现完全参数微调通常在所有尺度上都能提供最佳的下游性能,并且参数高效微调方法在模型规模上的功效存在显著差异。然而,LoRA 方法通常在成本和性能之间提供了最有利的平衡。此外,我们还发现较大的模型往往表现出较低的稳健性和较低的安全性。最后,我们探讨了更新的参数、交叉熵损失和任务性能之间的关系,并发现在小型模型中观察到的调优效果在大型模型中也普遍适用,指导性调优中的验证损失可以作为总体下游性能的可靠指标。