对于球形损失函数族的精确梯度更新,与输出大小无关的时间
该论文研究了一些来自球形家族的损失函数,探讨它们是否可以替代传统的 log-softmax 损失函数,并发现这些替代方案在 MNIST 和 CIFAR-10 上的表现优于传统的损失函数。
Nov, 2015
用梯度流训练具有近似保证的神经网络对目标进行测量,并在连续的带状 d 维单位球上用 L2 正规化,网络为全连接的常数深度和增加的宽度,基于神经切向核(NTK)对非凸倒数第二层的分析,呈现出欠参数化的状态以满足近似所需的自然平滑性假设。
Sep, 2023
本文研究了使用随机梯度下降(SGD)训练任意宽度的两层神经网络(NN),其中输入 x 是高斯分布的,目标 y 遵循多指数模型,并证明了当基于 SGD 和权重衰减进行训练时,NN 的第一层权重将收敛于真实模型的向量 u1,...,uk 所张成的 k 维主子空间,从而建立了一个独立于 NN 宽度的一般化误差边界,并进一步证明了,使用 SGD 训练的 ReLU NNs 可以通过恢复主方向来学习单指标目标,其样本复杂度与 d 成线性关系,而不是通过核区域中的任何 p 次多项式的已知 d 奥米(p)样本要求,这表明在初始化时使用 SGD 训练的 NNs 可以胜过神经切向核。
Sep, 2022
研究基于概率分布的机器学习任务中,提出了几种概率映射函数,为了控制稀疏度,开发出了一个统一框架并提出了两种新的 sparse formulations,并在多标签分类场景中开发了新的凸损失函数,用于计算注意力权重,从而在类似神经机器翻译和抽象摘要等标准 seq2seq 任务上获得更好的性能。
Oct, 2018
在大型嵌入模型应用的推动下,我们研究了带有个体梯度稀疏性的差分隐私(DP)优化问题,我们得到了经典均值估计问题的新近最优界限,但这是在稀疏数据情况下,改进了先前的算法,特别是在高维情况下。在此基础上,我们提出了几乎最优的 DP 算法和近似 DP 算法,用于具有稀疏梯度的随机凸优化问题;前者首次提供了几乎与维度无关的速率。最后,我们研究了近似 DP 优化中经验损失的稳定点近似,并得到了依赖于稀疏性而非维度的速率,除了对数因子。
Apr, 2024
本文研究机器学习中的结构化输出预测问题,通过提出基于算法稳定性的新型高概率界限和期望的泛化界限,改进了该领域的研究。同时,本文扩展了该领域的研究对象到弱相关数据。
May, 2021
研究了基于 Nesterov 的对偶平均算法的随机优化算法,在预期损失是强凸的且最优解是(近似)稀疏的问题上进行优化,证明了在局部 Lipschitz 损失下,在 T 轮迭代后,我们的解决方案的误差最多为 O((slogp)/T),并确立了我们的收敛率是最佳的,且在数值模拟中通过对最小二乘回归问题进行几个基准线的比较,证实了我们方法的有效性。
Jul, 2012
添加噪音后,旋转不变算法在观察到 d 个或更多实例之后仍然是次优的;我们通过对旋转对称问题的贝叶斯最优算法的一个下界证明了这一点,并对简单的非旋转不变算法在同一问题中进行了更低的上界证明;最后,我们分析了一些简单情况下许多标准优化算法的梯度流轨迹,展示了它们朝着或远离稀疏目标的方向发展;我们相信我们的轨迹分类方法在设计能够利用稀疏目标的算法中将是有用的,而我们证明下界的方法对于分析其他拥有不同不变性类别的算法族将是至关重要的。
Mar, 2024