离散优化问题在深度学习任务中经常出现,尽管神经网络通常操作于连续数据。本文探讨了一种基于分数近似的框架,用于解决依赖于神经网络的目标函数和离散优化变量的问题。通过利用离散变量的嵌入和自动微分框架的计算速度,在对抗性集合分类任务中,我们实验性地证明了我们的方法在速度和解决方案质量方面相比启发式方法具有更好的权衡。
Oct, 2023
本研究提出了一个基于离散时间最优控制问题的深度学习训练算法 (MSA),通过约束权重在离散集合内来实现神经网络的训练,获得了具有竞争力表现的分类结果和非常稀疏的三值网络权重,这有助于在低内存设备上进行模型部署。
Mar, 2018
研究了梯度下降法与梯度流动在深度学习中的关系,发现深度神经网络上的梯度流动轨迹存在良好曲率,能够很好地近似梯度下降法。理论和实验结果表明,梯度下降法具有较高的计算效率和全局最小解收敛保证。
Jul, 2021
本研究提出了一种递归小批量算法,通过离散优化目标找到满足训练集目标的硬阈值激活神经网络,可以提高分类精度,适用于大规模集成系统。
Oct, 2017
此研究提出了一种基于全局和局部线性松弛的可扩展启发式方法,用于对训练后的神经网络模型进行建模和求解,具有与最先进的整数线性规划(MILP)求解器和之前的启发式方法相竞争,并且在输入、深度和神经元数量增加时能够产生更好的解。
Jan, 2024
深度神经网络和强化学习方法在解决复杂的组合问题方面取得了显著的实证成果,本文引入了一种新的理论框架来分析这些方法的有效性,回答了存在生成模型能够生成近似最优解、拥有易处理的参数数量以及优化结果无次优静态点等问题,并介绍了一种新的正则化过程,实验证明其有助于解决梯度消失和避免不良静态点的问题。
基于反向传播的迭代微分逼近方法使得神经网络的优化成为可能,但目前仍然计算代价高昂,尤其是在大规模训练模型时。本文提出了一种计算效率高的神经网络优化替代方案,既能降低神经网络的扩展成本,又能为低资源应用提供高效的优化。通过数学分析其梯度,我们推导了一个明确的解决方案用于简单的前馈语言模型 (LM)。该解决方案可以推广到基于正值特征训练的所有单层前馈 softmax 激活神经模型,我们通过将该解决方案应用于 MNIST 数字分类问题进行了验证。在 LM 和数字分类器的实验中,我们发现在计算上,明确的解决方案可以接近最优解,同时证明了:1) 迭代优化对明确解决方案参数的改进仅有微小影响,2) 随机初始化参数通过迭代优化逐渐趋向于明确的解决方案。我们还初步将明确的解决方案局部应用于多层网络,并讨论了随着模型复杂性增加的解决方案的计算节约。对于明确解决方案的单层和多层应用,我们强调仅通过反向传播无法达到这些最优解,即只有在应用明确解决方案后才能发现更好的最优解。最后,我们讨论了解决方案的计算节约以及它对模型可解释性的影响,并提出了为推导复杂和多层体系结构的明确解决方案的未来方向。
Nov, 2023
通过增加 Gumbel 噪声扰动的规模参数和引入特定于随机离散 - 连续计算图的 dropout 残差连接,可以训练复杂的离散 - 连续模型,且其泛化能力优于连续模型。
Jul, 2023
本文通过分析,发现现代的神经网络足以直接用随机梯度下降算法实现庞大的非线性优化任务,并且能够克服局部最优解的困难。
Dec, 2014
通过使用离散时间动力系统的 Koopman 算子理论,我们发现在线镜像和梯度下降的 Koopman 谱高度重叠,并提供了第一个关于机器学习方法优化选择的泛化特征化,包括学习率,批量大小,层宽,数据集和激活函数等多个因素的影响。
Feb, 2023