基于多级目标无函数优化的神经网络训练

Feb, 2023

基于多级目标无函数优化的神经网络训练

Multilevel Objective-Function-Free Optimization with an Application to Neural Networks Training

S. Gratton, A. Kopanicakova, Ph. L. Toint

TL;DR本文介绍了一类针对非线性最优化问题的多层算法，旨在降低计算成本，避免受噪音影响，其中包含了不需要评估目标函数的 AdaGrad 方法，并应用于深度神经网络的训练中，用于解决监督学习问题。

Abstract

A class of multi-level algorithms for unconstrained nonlinear optimization is presented which does not require the evaluation of the objective function. The class contains the momentum-less →

unconstrained nonlinear optimization multi-level algorithms adagrad method computational cost supervised learning

发现论文，激发创造

具有水平无关收敛速度的网络随机多级组合优化算法

探讨了针对多层分布式部署的随机优化问题的两种新的分布式优化算法，并在理论上和实验中验证了两种算法的有效性。

Jun, 2023

稀疏深度神经网络训练的多目标优化

深度学习中存在多个冲突的优化准则，本文提出了一种多目标优化算法，使用修改后的加权切比雪夫标量化方法来训练深度神经网络 (DNNs)，并通过实验证明了可以在训练过程中自适应地稀疏化模型，而不显著影响其性能。

Aug, 2023

基于模型无关的无监督学习方法解决带约束优化问题

本文提出一种无模型学习框架来解决无法推导出目标函数或限制条件的优化问题，同时将神经网络用于参数化所需优化的函数、参数化瞬时限制条件相关的拉格朗日乘数以及逼近未知的目标函数或限制条件。数值和模拟结果验证了所提出的框架的有效性，并以功率控制问题作为例子证明了模型无关学习的效率。

Jul, 2019

一种块坐标方法用于多层优化问题，应用于基于物理知识的神经网络

提出了一种基于块坐标视角下重新解释多层方法的多层算法，用于解决非线性优化问题并分析其评价复杂度。应用于物理信息神经网络（PINNs）求解偏微分方程，结果表明该方法可以获得更好的解决方案并节省很多计算时间。

May, 2023

训练神经网络的统一框架

我们提出了一个统一的优化框架，用于训练不同类型的深度神经网络，并在任意损失、激活和正则化函数上建立其收敛性。该框架推广了众所周知的一阶和二阶训练方法，并允许我们展示这些方法在各种深度神经网络架构和学习任务中的收敛性为我们的方法的一种特殊情况。

May, 2018

抬升神经网络

本文提出一种新型的神经网络构架，利用基于惩罚项的训练问题来编码激活函数，这种框架可以被应用于 block-coordinate descent 算法中，该算法可以在每次迭代中通过并行化数据点和 / 或层数来解决简单（没有隐藏层）的监督学习问题，实验结果表明该方法为标准神经网络提供了极佳的初始权重估计，并且对于使用参数优化激活函数、对抗噪声数据的拓展也提供了思路。

May, 2018

单类系统无缝融合正向 - 正向算法

该研究旨在探究在前向传播算法下使用深度单类目标函数的性能，并表明在解决单类问题时，不需要特别开发新的损失函数。

Jun, 2023

分布式网络上的联邦多层优化

我们提出了一种基于八卦的分布式多级优化算法，它使网络代理能够在单一时间尺度上解决不同级别的优化问题，并通过网络传播共享信息。我们的算法在网络规模上线性扩展，并在超参数调整、分散强化学习和风险规避优化等各种应用中实现了最佳的样本复杂性。

Oct, 2023

无损适应性：一种带有动量化、自适应、双平均随机梯度优化方法

引入了 MADGRAD 优化方法，其表现优异，不仅适用于视觉领域中的分类和图像转换任务，还适用于自然语言处理中的循环和双向掩蔽模型。在每个任务中，MADGRAD 的测试结果均优于 SGD 和 ADAM，并且在自适应方法通常表现差的问题上也表现出色。

Jan, 2021

在轻松平滑条件下的参数无关优化

通过理论和实验证明，Normalized Stochastic Gradient Descent with Momentum 算法在没有先验知识的情况下可以实现（接近）最优复杂度，但复杂度中引入了一个依赖于 (L_1) 的指数项，这是不可避免的。同时，在确定性设置下，可以通过使用 Gradient Descent with a Backtracking Line Search 来抵消指数因子。这是首个在广义平滑条件下提出的无需参数设置的收敛结果。

Nov, 2023