大规模深度网络的变分学习有效性

Feb, 2024

大规模深度网络的变分学习有效性

Variational Learning is Effective for Large Deep Networks

Yuesong Shen, Nico Daheim, Bai Cong, Peter Nickl, Gian Maria Marconi...

TL;DR我们通过大量的证据反驳了普遍观点，即变分学习对于大型神经网络无效。我们展示了一种名为改进变分在线牛顿（IVON）的优化器，在训练 GPT-2 和 ResNets 等大型网络时，始终能够与 Adam 相匹配或胜过它。IVON 的计算成本与 Adam 几乎相同，但其预测的不确定性更好。我们展示了 IVON 的几个新用例，其中我们改善了大型语言模型的微调和模型合并，准确预测了泛化误差，并忠实地估计了对数据的敏感性。我们发现了支持变分学习有效性的压倒性证据。

Abstract

We give extensive empirical evidence against the common belief that variational learning is ineffective for large neural networks. We show that an optimizer called Improved Variational Online Newton (IVON) consis

variational learning large neural networks improved variational online newton (ivon)adam gpt-2

发现论文，激发创造

使用深度生成网络的量子问题变分优化

基于生成模型的变分生成优化网络（VGON）是一个通用方法，用于设计变分优化算法，并在量子任务中得到广泛应用。

Apr, 2024

变分连续学习

本文提出变分连续学习 (Variational Continual Learning，VCL) 框架，它将在线变分推理 (Online Variational Inference, VI) 和神经网络中的蒙特卡罗变分推理 (Monte Carlo VI) 相融合，成功地在任务时序不断演变、全新任务涌现等复杂连续学习情景下对深度判别模型和生成模型进行建模并避免灾难性遗忘的发生。实验结果表明，在多种任务上，VCL 优于现有的连续学习方法。

Oct, 2017

利用方差迁移和学习速率自适应增量式生长神经网络加速训练

通过考虑参数化和优化策略对训练动态的影响，我们开发了一种高效增长神经网络的方法，该方法动态稳定权重、激活和梯度缩放，提出一种学习率适应机制来解决不平衡训练问题，并取得了与训练大型固定模型相当或更好的准确性和训练速度加快。

Jun, 2023

深度神经网络的变分随机梯度下降

将梯度更新建模为概率模型并利用随机变分推断（SVI）推导出一种高效且有效的更新规则，该方法称为变分随机梯度下降（VSGD）优化器，相较于 Adam 和 SGD，VSGD 在两个图像分类数据集和四种深度神经网络结构上表现更优。

Apr, 2024

深度学习中方差缩减优化算法的无效性

本文探讨了随机方差缩小技术在优化中的应用，研究发现在训练现代深度神经网络中，由于遇到难解的非凸优化问题，直接应用 SVRG 技术等方法效果不佳。

Dec, 2018

广义变分续学习

该论文研究了在线学习中的连续学习，并介绍了使用概率正则化技术的两种主要方法，其中 Variational Continual Learning (VCL) 通过引入 FiLM 层等技术，得到了更好的性能表现。

Nov, 2020

变分贝叶斯神经网络中的过度剪枝

研究表明，在神经网络中使用更具表现力的变分逼近可能会导致更差的预测表现，这一现象称为变分剪枝，本文提出了一种理论上的解释并指出有效的变分逼近设计应对此现象。

Jan, 2018

可扩展且泛化的学习优化器

通过引入层次循环神经网络优化算法和基于元学习的小任务集，实现了一个新的学习梯度下降优化器，解决了在更大的问题上扩展能力不足和泛化能力受限问题，并在 ImageNet 数据集上通过数千步为 Inception V3 和 ResNet V2 架构进行了优化。

Mar, 2017

鲁棒贝叶斯神经网络的确定性变分推断

本研究提出两种创新方法以将变分贝叶斯转化为贝叶斯神经网络的稳健推理工具：一种新的确定性方法用于逼近神经网络的矩，消除了梯度方差；一种参数的分层先验和自动选择先验方差的新的经验贝叶斯程序。将这两种方法结合起来，所得到的方法高效而稳健，在异方差回归应用中表现出了很好的预测性能。

Oct, 2018

基于贝叶斯原理的实用深度学习

本研究利用自然梯度变分推理方法对深度神经网络进行实用性的训练，并通过批归一化、数据扩充和分布式训练等技术获得类似于 Adam 优化器的性能，即使在 ImageNet 等大型数据集上也是如此。此外，本研究验证了使用贝叶斯原理的好处：预测概率被很好地校准，超出分布数据的不确定性得到改善，并且持续学习性能得到提高。该研究旨在实现实用性的深度学习，并同时保留贝叶斯原理的好处。最后提供了一个 PyTorch 的实现优化器。

Jun, 2019