- 用平滑 l0 正则化的熵误差函数的 SGD 方法用于神经网络
基于熵误差函数的神经网络收敛速度慢,容易被困在局部最小值或错误的饱和问题中。为了解决这个问题,我们提出了一种新的带有平滑 l0 正则化的熵函数,用于前馈神经网络,并通过实证评估表明该算法能够大幅提高神经网络的预测性能,并且相比于基线模型,我 - 约束优化模型集成
通过多调整技术和组合模型来改进多维输出预测的下游优化问题,提出了两个高效收敛的算法,并在实验中对其性能和行为进行了探索。
- 基于得分的生成模型与自适应动量
通过引入适应性动量采样,有效加速了转换过程,同时在小样本步骤中产生更加逼真的图像 / 图表,并在图像和图表生成任务中获得了有竞争力的评分。
- 非凸非光滑条件随机优化的功能模型方法
我们提出了一种用于非凸约束条件随机优化问题的专门单时间尺度随机方法,其中包含一个 Lipschitz 平滑的外函数和一个广义可微分的内函数。该方法中,我们用一个丰富的参数模型来逼近内部条件期望,该模型的均方误差满足随机版本的 Lojasie - 异步联邦随机优化中的精确平均化技术用于异构局部目标
Federated learning algorithms face challenges due to straggling clients and non-iid local distributions; the proposed st - 快速二次时间尺度随机梯度法及其在强化学习中的应用
提出了一种用于解决两时间尺度优化问题的新方法,通过利用平均化步骤改善算子的估计,消除了主要变量之间的直接耦合,从而大大加快了收敛速度,并在强凸性、凸性、Polyak-Lojasiewicz 条件和一般非凸性等各种情况下改进了传统两时间尺度随 - 使用随机零阶预言机最小化 Polyak-Łojasewicz 函数
应用零阶方案来最小化 Polyak-Łojasewicz (PL) 函数,基于利用随机 oracle 来估计函数的梯度,算法收敛到无约束情况下的全局最小值和约束情况下的全局最小值邻域,附带相应的复杂度界限,并通过数值示例进行了理论结果的证明 - 基于期望最大化的多模型三维配准的理论分析
我们对一种基于期望最大化算法进行了详细的理论分析,该算法最近被提出用于解决一种名为多模型 3D 注册的变种问题,我们旨在通过确定一些条件来填补已有的理论知识的空白。
- 柏拉图表征假设
AI 模型中的表示正在收敛,通过调查文献中的多个例子和数据模态的比较,我们证明了对于不同的神经网络来说,它们对数据的表示方式变得越来越趋同。我们假设这种趋同性驱动着 AI 模型走向一种共享的统计模型现实,类似于柏拉图所提出的理念,我们将这种 - IJCAI对于延伸的韦伯选址问题的去奇异子梯度方法
在这篇论文中,我们针对扩展的韦伯位置问题,建立了一种去奇性亚梯度方法,并提供了完整的收敛证明。我们还推导了在极小点为奇异点的特殊情况下迭代序列的超线性收敛性质。实验结果表明,所提出的方法解决了奇性问题,在非奇性情况下产生了相同的结果,并展示 - 利用 James-Stein 估计器控制黑盒变分推断的方差
黑盒变分推断是在使变分推断更 “黑盒” 的最近努力中的一个有前途的框架,但在基本版本中,它要么由于不稳定性而无法收敛,要么在执行前需要调整更新步骤,这使得它不完全通用。我们提出了一种通过将随机梯度上升重新定位为多元估计问题来规范其参数更新的 - 揭示物理任务导向神经网络的优化过程:PINN 能有多准确和有竞争力?
研究通过改进优化算法和调整损失函数,得出物理感知神经网络在多个领域具有与有限差分方案相当的准确性,鼓励进一步推动 PINNs 和相关优化技术在各个领域的应用。
- 使用 IHT 学习稀疏神经网络
本文旨在通过提供收敛所需的全部条件的理论证明,研究在神经网络训练领域中,这种收敛的理论先决条件是否适用。然后,通过在单层神经网络上使用 IRIS 数据集进行实验验证这些条件。
- 求解参数化二阶椭圆型偏微分方程的有限元算子学习方法的误差分析
本论文通过对经典有限元逼近的一种不依赖数据的操作学习方法 —— 有限元算子网络 (FEONet) 进行理论分析,首先确定了该方法在具有一般二阶线性椭圆型偏微分方程与神经网络逼近参数的收敛性。其次,推导出了自伴随情况下的显式误差估计,验证了解 - 规则化的高斯牛顿方法优化超参数化神经网络
研究了使用广义高斯 - 牛顿优化方法优化具有显式正则化的双层神经网络,通过考虑常用目标函数中惩罚项的光滑近似来提供自适应学习率选择技术,数值实验结果突出了广义自共轭正则化对优化后的神经网络泛化性能的改善方面。
- 狗散步理论:重新思考联邦学习中的收敛性
该研究论文中,作者通过狗的牵引行为的比喻,提出了一种新的联邦学习算法 FedWalk,该算法利用服务器端的一个容易收敛的任务作为 “牵引任务” 来指导客户端的本地训练,以解决现有 FL 算法中存在的一些问题,并通过在多个基准数据集上的实验证 - MM局部解析泛函推前有限维逼近与最小二乘多项式截断
这篇论文介绍了一种用于研究有限离散数据的解析映射的理论框架,阐明了多元情境中最小二乘多项式逼近的数学机理。通过考虑局部解析泛函空间的推前作用,而非直接处理解析映射本身,我们确立了一种从离散数据中适当进行推前的有限维逼近方法,通过 Fouri - 具有差分隐私的黎曼流形上的联邦学习
提出了一个基于 Riemannian 流形的差分隐私技术的私有联邦学习框架 (PriRFed),分析了隐私保证的同时确立了收敛性属性,是第一个具有隐私保证和收敛结果的基于 Riemannian 流形的联邦学习框架
- 通过最优输运协调上升变分推断用于对数凹测度的收敛性
均场变分推断(VI)是找到相对熵意义下到给定的高维概率测度 $\rho$ 最接近的分布(分解测度)的问题。本文证明了在对数凹密度 $\rho$ 情况下,均场变分推断 CAVI 的收敛性。若附加条件 $\log \rho$ 具有 Lipsch - 正则化梯度剪裁能可靠地训练宽且深的神经网络
我们证明了基于正则化的梯度剪裁算法可以收敛于深度神经网络损失函数的全局最小值,只要网络具有足够的宽度,并且通过实证证明这一算法在深度学习中与现有的启发式方法相竞争,因此这一算法构成了一种新的严谨深度学习方法。