超级求解器:朝着快速的连续深度模型
提出一种新型深度神经网络模型 —— 连续深度模型,其采用了一个神经网络来参数化隐藏状态的导数,并利用黑箱微分方程求解器计算网络输出,使其具有内存成本不变、能够为每个输入自适应地选择评估策略并能显式进行精度 / 速度权衡等特点。研究者进一步证明了通过此模型可以构造出连续正则化流模型,能够通过最大似然进行训练,而不需要对数据维度进行分区或排序,并展示了如何在较大模型内部向任何 ODE 求解器进行可扩展地反向传播,从而实现 ODE 的端到端训练。
Jun, 2018
神经常微分方程(Neural ODEs)在深度学习文献中取得了巨大成功,最近提出了连续版本的 U-net 架构,在图像应用中显示出比离散版本更高的性能,并围绕其性能和鲁棒性提供了理论保证。本文探讨了使用神经 ODE 解决学习逆问题的可能性,尤其是在已知的学习 Primal Dual 算法中,并将其应用于 CT 重建。
May, 2024
利用神经 ODE 通过使用连续深度神经网络参数化微分方程并使用数值 ODE 积分器来解决,相较于具有离散隐藏层序列的模型,这些模型提供了恒定的内存成本,其中内存成本随隐藏层数的增加呈线性增长。另外,神经 ODE 的其他优点还包括对输入评估方法的可调适性和选择数值精度或快速训练的灵活性。然而,尽管具有所有这些优点,它仍然存在一些限制。我们将 ODE 积分器(也称为 ODE 求解器)确定为链条中最薄弱的环节,因为它可能存在稳定性、一致性和收敛性(CCS)问题,可能在收敛速度较慢或根本不收敛。我们提出了一种基于 Nesterov's 加速梯度(NAG)的一阶 ODE 求解器,经证实可以调整以满足 CCS 条件。我们通过在监督分类、密度估计和时间序列建模三个不同任务中训练更快,同时实现更好或相当的性能,来经验性地证明了我们的方法的有效性。
Dec, 2023
本文提出了一种新的方法,通过将网络的深度作为一个基本变量,将问题简化为正向初始值问题的系统,探讨了深度的不同对神经网络的不同性质产生的影响,并通过实验展示了该方法在监督学习和时间序列预测方面的竞争性表现。
Jan, 2022
提出了一种新的神经 ODE 算法范例,称为 ODEtoODE,其中主要流的时间相关参数随着正交群 O(d)上的矩阵流发展。这种嵌套的两种流系统,其中参数流限制在紧致流形上,提供稳定性和有效性训练,并能解决梯度消失 - 爆炸问题,从而导致更好的下游模型和进化策略中训练增强学习策略和在监督学习设置中,通过与以前的 SOTA 基线进行比较。我们提供了独立于网络深度的强收敛结果,支持我们的经验研究。我们的结果表明,深度神经网络理论与紧凑流形上的矩阵流领域之间存在着有趣的联系。
Jun, 2020
本研究探讨使用神经常微分方程作为一种传播基于简化模型的潜在空间动力学的方法,并与两种传统的非侵入性方法进行比较,发现神经常微分方程提供了一个稳定和准确的演化潜在空间动力学的框架,但为了促进其广泛应用于大型系统,需要加速其训练时间。
Apr, 2021
本文提出了一种用于无配对输入输出观测的深度神经网络参数化的无穷维算子的学习框架,以实现对于参数 ODE/PDE 系统的精确长时间模拟,该方法虽然比传统数值解算法计算成本低,但可靠性更高且能够全局评估。
Jun, 2021
本研究提出了 PolyODE,一种基于正交多项式投影的神经常微分方程模型,用于学习动态系统,以实现长期记忆和整体表示,优于先前的模型在数据重建和下游预测任务中的性能。
Mar, 2023