BriefGPT.xyz
Ask
alpha
关键词
minimizer
搜索结果 - 5
回归问题的深度线性网络在隐含规范化方面趋向于平坦的最小值
神经网络的海森矩阵的最大特征值(或清晰度)是理解其优化动态的关键量。本文研究超定单变量回归的深度线性网络的清晰度。虽然最小化器的清晰度可以任意大,但不可以任意小。事实上,我们证明了最小化器清晰度的下界与深度成线性增长。然后我们研究了梯度流找
→
PDF
a month ago
关于 t-SNE 在流形上的点云梯度流收敛分析
我们提出了关于 t-SNE 算法有限性的理论基础。t-SNE 使用梯度下降迭代与 Kullback-Leibler(KL)散度作为目标函数,旨在在高维空间中识别与原始数据点相似的一组点,最小化 KL 散度。在对采样数据集进行弱收敛假设的条件
→
PDF
5 months ago
MM
使用财产征集理解公平约束的影响
预测算法通常通过优化某个损失函数来进行训练,并添加正则化函数来对违反约束进行惩罚。我们使用属性提取方法来了解损失函数和正则化函数与给定问题实例的最优决策之间的关系,探究一些常见的满足条件的正则化函数对公平机器学习的影响。我们还从经验上展示了
→
PDF
10 months ago
深度神经网络的方向修剪
提出一种新的方向剪枝方法,用于在训练损失的平稳区域内或接近该区域内寻找稀疏解,证明了该方法在高度稀疏时对 ResNet50,VGG16 和 wide ResNet 28x10 等神经网络的同时达到与 SGD 相同的极小值,并且所找到的极小值
→
PDF
4 years ago
最小化星凸函数及其近似最优方法
本文提出了近乎最优的加速一阶方法,以最小化一类广泛的平滑非凸函数,这些函数在经过极小值点的所有线上都是严格单峰的,并给出了相应的理论分析。
PDF
5 years ago
Prev
Next