Feb, 2024

大规模深度网络的变分学习有效性

TL;DR我们通过大量的证据反驳了普遍观点,即变分学习对于大型神经网络无效。我们展示了一种名为改进变分在线牛顿(IVON)的优化器,在训练 GPT-2 和 ResNets 等大型网络时,始终能够与 Adam 相匹配或胜过它。IVON 的计算成本与 Adam 几乎相同,但其预测的不确定性更好。我们展示了 IVON 的几个新用例,其中我们改善了大型语言模型的微调和模型合并,准确预测了泛化误差,并忠实地估计了对数据的敏感性。我们发现了支持变分学习有效性的压倒性证据。