Apr, 2024

LoRA 丢弃法作为过拟合控制的稀疏正则化器

TL;DR本文提出了一种 LoRA Dropout 机制,通过向可学习的低秩矩阵引入随机噪声和增加参数稀疏性,从稀疏正则化的角度证明了 LoRA Dropout 机制的理论机制,并提供了在该框架下的泛化误差界限。理论结果表明适当的稀疏性可以帮助缩小经验风险和泛化风险之间的差距,从而控制过拟合。此外,基于 LoRA Dropout 框架,引入了测试时集成策略,并提供了理论证据证明集成方法可以进一步压缩误差界限,在推理时获得更好的性能。在各种自然语言处理任务上进行的广泛实验验证了我们的 LoRA Dropout 框架在提高模型准确性和校准性方面的实际有效性。