通过最优收缩在预测问题中校准神经网络参数

Jun, 2024

通过最优收缩在预测问题中校准神经网络参数

Calibrating Neural Networks' parameters through Optimal Contraction in a Prediction Problem

Valdes Gonzalo

TL;DR通过将递归神经网络转化为一个已知参数为线性的收缩系统，本文展示了透过具有特定正则化项的递归神经网络模型建模的预测问题可以通过解析法找到其一阶条件的方程组，并将其简化为包含 Sylvester 方程的两个矩阵方程，从而证明在满足一定条件的情况下，可以通过直接算法以任意精确度找到存在且唯一的最优参数。此外，随着神经元数量的增长，收敛条件变得更容易满足。还研究了参数线性约束下的前馈神经网络，引入循环（带有固定或变量权重）将导致更容易训练的损失函数，因为它保证了一个迭代方法收敛的区域的存在。

Abstract

This study introduces a novel approach to ensure the existence and uniqueness of optimal parameters in neural networks. The paper details how a recurrent neural networks (RNN) can be transformed into a contractio

neural networks recurrent neural networks regularization term matrix equations convergence

发现论文，激发创造

关于训练循环神经网络的收敛速率

本文研究了如何在训练多层神经网络时，通过采用类局部搜索方法（如随机梯度下降）避免陷入不良局部最小值，在给定非凸非光滑结构的情况下，它们如何适应随机标签；研究了在神经网络中如何使用 ReLU 激活函数避免指数梯度爆炸或消失；通过构建扰动理论，该理论可用于分析 ReLU 激活的多层网络的一阶数学逼近。

Oct, 2018

神经网络超参数优化的有效算法

本文中提出了一种基于箱限制数学优化问题的方法，运用光滑径向基函数模型及无导数优化工具去寻找神经网络的最佳参数。该方法是自动的且可有效地搜索参数空间，其应用于药物相互作用的预测中具有良好的效果，并且所用的优化工具是开源的。

May, 2017

关于循环神经网络的可证泛化性

本文研究基于随机初始化的循环神经网络（RNN）的训练和泛化，提出了两个改进：1）无需归一化条件就能学习某些显著概念类的函数；2）能够学习输入序列的 N 元函数形式 f（β^T [X_{l_1},...,X_{l_N}]），该函数类别不属于可加分概念类，当其中某个 N 或者 l_0 较小时，f 能以接近于多项式级别的迭代次数和样本数进行学习。

Sep, 2021

使用神经网络对受约束系统进行建模的两阶段训练方法

本文详细描述了一种简单、有效且无需惩罚参数的两阶段训练方法，用于模型约束系统。通过将约束优化问题重写为解决两个无约束子问题的两阶段，实现了找到可行神经网络参数和最优神经网络参数。实验证明，该方法可以产生满足约束的模型，并提升预测性能，确保关键系统属性的合规性并减少数据需求量。此外，我们还展示了该方法改善了求解最优解的收敛性和解释可行的神经常微分方程模型的能力。我们的两阶段训练方法适用于任何神经网络架构。

Mar, 2024

非约束耗散和收缩神经常微分方程的参数化

该论文介绍了一种使用神经常微分方程与循环平衡网络相结合的连续时间深度神经网络，该网络在不受限制的参数化情况下拥有可收缩和可耗散性，且可以处理非规则采样数据，用于非线性系统识别。

Apr, 2023

最佳逼近的随机投影神经网络：收敛理论和实际应用

通过随机投影（RPNNs）的角度，我们研究了前馈神经网络（FNN）的最佳逼近概念，并探索了它们的收敛性质。我们证明了对于任何一类具有非多项式无穷可微激活函数的 RPNNs，存在一种选择的外部权重，当近似任何无穷可微函数时呈指数收敛率。为了说明，我们在五个基准函数逼近问题上测试了 RPNNs 的函数逼近性能，结果显示 RPNNs 实现了与勒让德多项式等已建立方法可比的性能，突显了它们在高效准确函数逼近中的潜力。

Feb, 2024

ReLU 激活函数的神经网络参数化有多退化？

研究神经网络的优化问题，发现常见的损失函数在实现空间上是凸的，通过使用神经网络的近似能力来处理非凸性问题，利用 Sobolev norm 来建立一种限制的参数化空间来实现反稳定性，并证明在受限制的参数化空间内优化仍然可以学习任何可通过无限制优化学习的函数。

May, 2019

单幺正演化循环神经网络

本文提出了一种新的神经网络架构，该架构学习一个特殊的方阵作为权重矩阵，使得隐藏层矩阵的特征值绝对值为 1，避免了权重矩阵导致的梯度问题；通过在复杂域中考虑隐藏状态并极具表达能力的参数化方法，为学习长期依赖任务带来了先进的结果。

Nov, 2015

神经网络的实际灵活性如何？

神经网络对数据的拟合能力的研究发现，标准优化算法找到的最小值只能适应参数比样本数量少很多的训练集，卷积网络比多层感知机和视觉注意力变换模型更有效，随机梯度下降在拟合训练集方面比全批量梯度下降更好，对于正确和错误标记样本的拟合能力差异可以预测泛化性能，ReLU 激活函数能找到更多的数据拟合最小值尽管旨在避免深层神经网络中的梯度消失和梯度爆炸。

Jun, 2024

使用顺序非标准动力学改善循环神经网络的记忆能力

探讨使用非正常的重复神经网络（RNNs）以解决梯度 “消失 / 爆炸” 的问题并提高 “信噪比”。研究显示，具有非正常的重复连接矩阵的非正常 RNN 可以在序列处理任务中胜过其正交对应物。

May, 2019