- 基于回归和不确定性量化的高效线性搜索方法
使用贝叶斯优化方法的新的线搜索方法可以更有效地探索搜索空间,达到更好的解决方案质量,且易于实施和集成到现有框架中,并与现有的最先进的方法相比,使用相同的资源解决更多问题。
- SGD 批大小对自编码器学习的影响:稀疏性,锐度和特征学习
利用随机梯度下降 (Stochastic Gradient Descent, SGD) 算法研究了在正交数据上训练具有线性或 ReLU 激活函数的单神经元自编码器的动力学。我们发现对于这个非凸问题,使用恒定步长的随机初始化 SGD 算法可以 - 训练的 Transformer 学习上下文中的线性模型
研究注意力机制的神经网络 transformer 采用渐变流进行单个线性自注意层的训练,实现在新的预测任务中使用标记示例的测试提示时具有预测误差与测试提示分布上最佳线性预测器相竞争的能力,且在多种分布转换下具有鲁棒性。
- 使用变分传输和镜像下降在约束域上进行分布式优化的基于粒子的算法
本文提出了一种基于粒子的迭代算法 —— 反射变分传输(mirrorVT),应用于概率分布的约束优化问题,特别是在单纯形和欧几里得球约束域上,该算法通过推送粒子对定义在对偶空间上的分布流形执行 Wasserstein 梯度下降,实现了概率分布 - ICML大学习率下梯度下降的特殊属性
证明大步长是神经网络进行随机梯度下降 SGD 训练所必需的,并且可以帮助实现全局最小值。
- 向量输出 ReLU 神经网络问题是共正规划:两层网络的凸分析与多项式时间算法
这篇论文描述了两层向量输出 ReLU 神经网络训练问题的凸半无限对偶问题,利用它可以找到全局最优解,而神经网络隐式地尝试通过半非负矩阵分解解决共正程序。
- 一层宽层后金字塔拓扑的深度网络全局收敛
针对深度神经网络的全局最小化问题,证明对于采用金字塔形拓扑结构,且只有第一层宽度为 N 的深度神经网络,可以找到和宽度多项式增长时相似的最小值。并且将该结果应用于 LeCun 的初始化方法,得到了单大宽度层的超参数要求为 N ^ 2 的结论 - 深度神经网络的平均场分析
通过确定性的积分微分方程建模,研究网络尺寸与随机梯度下降迭代次数同时较大时多层神经网络的极限行为,证明任何隐藏层数目下的极限行为,并在合适的激活函数和行为的假设下,表明极限神经网络可恢复全局最小值(目标函数无损失)
- 超参数神经网络的自适应梯度方法的全局收敛性
提出了一种自适应梯度下降方法,可用于优化过度参数化的两层神经网络,并能在多项式时间内收敛到全局最小值,无需微调超参数,如步长计划,且超参数的级别与训练误差无关。
- ICML深度线性神经网络优化中证明宽度的重要性
证明全连接线性神经网络每个隐藏层的宽度大于 $\tilde\Omega (L \cdot r \cdot d_{\mathrm {out}} \cdot \kappa^3)$ 时, 高斯随机初始化的梯度下降算法会以线性速率收敛到全局最小值, - ICLR通过星型凸路径,SGD 在深度学习中收敛到全局最小值
本研究证明了随机梯度下降法 (SGD) 可训练深度神经网络,甚至可以收敛于全局最小值。这一结果得益于多个实验验证了 SGD 可以遵循恒星凸轨迹和训练损失近似于零值等性质,并以新方式揭示了 SGD 以确定性方式收敛于全局最小值。
- 通过稀疏有界平方和规划实现全局保证最优平面位姿图和地标 SLAM
该文章介绍了如何用稀疏 BSOS 分层算法将姿态 - 图和地标 - 图问题表述为多项式优化问题,并以全局最小化解决了这些问题,同时通过实验展示了该方法的卓越性能。
- 多任务及其结构的凸学习
通过将任务的结构编码为凸惩罚公式,实现了多任务学习方法,并提出了线性和非线性方法,最终采用基于块协调方法的方式解决了全局最小值的问题。