变分自适应牛顿法用于探索性学习
我们通过大量的证据反驳了普遍观点,即变分学习对于大型神经网络无效。我们展示了一种名为改进变分在线牛顿(IVON)的优化器,在训练 GPT-2 和 ResNets 等大型网络时,始终能够与 Adam 相匹配或胜过它。IVON 的计算成本与 Adam 几乎相同,但其预测的不确定性更好。我们展示了 IVON 的几个新用例,其中我们改善了大型语言模型的微调和模型合并,准确预测了泛化误差,并忠实地估计了对数据的敏感性。我们发现了支持变分学习有效性的压倒性证据。
Feb, 2024
通过采用简单的 Hessian 初始化和自适应训练区域分配,本论文介绍了一种名为 RANL 的新颖高效算法,该算法克服了 Newton 方法在大规模和异构学习环境中的限制,展现了出色的收敛性能,有效地适应可用资源并保持高效率,使其成为实际场景中的分布式随机优化的有希望的方法。
Aug, 2023
通过引入潜在变量建模和采用基于证据下界(ELBO)的训练目标,我们提出了一种名为变分分类(VC)的传统神经网络方法的新扩展,它通过对抗性方法进行优化。我们的 VC 模型在设计选择方面具有更大的灵活性,特别是类条件潜在先验的选择。对图像和文本分类数据集的实证评估表明,我们的方法在维持预测精度的同时改善了其他可取的特性,例如校准和对抗性鲁棒性,即使应用于外部域的数据。
May, 2023
本文提出变分连续学习 (Variational Continual Learning,VCL) 框架,它将在线变分推理 (Online Variational Inference, VI) 和神经网络中的蒙特卡罗变分推理 (Monte Carlo VI) 相融合,成功地在任务时序不断演变、全新任务涌现等复杂连续学习情景下对深度判别模型和生成模型进行建模并避免灾难性遗忘的发生。实验结果表明,在多种任务上,VCL 优于现有的连续学习方法。
Oct, 2017
本文提出了一种新的、严谨的贝叶斯元学习算法,用于学习少样本学习的模型参数先验的概率分布。该算法采用基于梯度的变分推断来推断模型参数的后验分布。我们展示了使用我们提出的元学习算法训练的模型具有良好的校准和准确性,在两个少样本分类基准测试(Omniglot 和 Mini-ImageNet)上取得了最新的校准和分类结果,并在多模式任务分布回归中获得了有竞争力的结果。
Jul, 2019
基于变分方法,提出一种新的培训神经网络算子和解决偏微分方程的统一框架,称为变分算子学习(VOL),VOL 可以以近乎无标签的方式有效地学习 PDE 的解算子,并利用最陡下降法和共轭梯度法进行更新。
Apr, 2023
近年来,变分量子算法(VQAs)作为在 NISQ 时代解决量子计算机上的优化问题的一种有前途的方法已经出现。然而,VQAs 的一个限制是它们对于特定问题或硬件配置可能不适合的固定结构电路。应对这个问题的一种主要策略是自适应 VQAs,通过添加和移除门来动态修改电路结构,并在训练过程中优化其参数。本文通过分析三种自适应 VQAs(进化变分量子特征求解器(EVQE),可变组态(VAns)和随机自适应 VQE(RA-VQE))来填补这一领域现有方法之间缺乏系统比较的空白。为了将这些算法与传统的 VQA 进行比较,我们还在分析中包括了量子近似优化算法(QAOA)。我们将这些算法应用于 QUBO 问题,并通过检查找到的解的质量和所需的计算时间来研究它们的性能。此外,我们还调查了超参数选择如何影响算法的整体性能,强调了选择适当的超参数调整方法的重要性。我们的分析为面向近期量子设备设计的自适应 VQAs 设定了基准,并为指导未来的研究提供了宝贵的见解。
Aug, 2023
本研究介绍了一种指数家族变分卡尔曼滤波器,该在线递归贝叶斯方法针对任意似然函数进行推断,利用常数基础测量指数家族对潜在状态随机性进行建模,以推断潜在轨迹并同时学习生成它们的动态系统。
May, 2023
本文探讨了基于变分推断的选项发现方法,提出了一种新的基于变分自编码器的 VALOR 方法,并使用课程学习的技巧增加了 agent 能够学习的多种行为模式,通过研究方法的限制以及从学习选项到下游任务的应用等主题来探讨相关领域。
Jul, 2018