对于球形损失函数族的精确梯度更新，与输出大小无关的时间

NIPSJun, 2016

对于球形损失函数族的精确梯度更新，与输出大小无关的时间

Exact gradient updates in time independent of output size for the spherical loss family

Pascal Vincent, Alexandre de Brébisson, Xavier Bouthillier

TL;DR本文提出了一种基于算法的方法，通过使用 loss 函数直接计算误差和梯度更新输出权重，而无需计算大维度向量，以实现高效地训练深度神经网络模型。

Abstract

An important class of problems involves training deep neural networks with sparse prediction targets of very high dimension D. These occur naturally in e.g. neural language models or the learning of →

neural networks sparse prediction targets word-embeddings gradient update algorithmic approach

发现论文，激发创造

针对带有极大稀疏目标的深度神经网络训练的高效精确梯度更新

该论文提出了一种针对大规模高维稀疏目标训练深度神经网络的算法，可以大大提高计算效率，减少更新权重和反向传播所需的计算时间。

Dec, 2014

属于球面损失家族的 Softmax 替代方案探究

该论文研究了一些来自球形家族的损失函数，探讨它们是否可以替代传统的 log-softmax 损失函数，并发现这些替代方案在 MNIST 和 CIFAR-10 上的表现优于传统的损失函数。

Nov, 2015

梯度下降训练的神经网络的近似结果

用梯度流训练具有近似保证的神经网络对目标进行测量，并在连续的带状 d 维单位球上用 L2 正规化，网络为全连接的常数深度和增加的宽度，基于神经切向核（NTK）对非凸倒数第二层的分析，呈现出欠参数化的状态以满足近似所需的自然平滑性假设。

Sep, 2023

神经网络使用 SGD 高效地学习低维表示

本文研究了使用随机梯度下降（SGD）训练任意宽度的两层神经网络（NN），其中输入 x 是高斯分布的，目标 y 遵循多指数模型，并证明了当基于 SGD 和权重衰减进行训练时，NN 的第一层权重将收敛于真实模型的向量 u1，...，uk 所张成的 k 维主子空间，从而建立了一个独立于 NN 宽度的一般化误差边界，并进一步证明了，使用 SGD 训练的 ReLU NNs 可以通过恢复主方向来学习单指标目标，其样本复杂度与 d 成线性关系，而不是通过核区域中的任何 p 次多项式的已知 d 奥米（p）样本要求，这表明在初始化时使用 SGD 训练的 NNs 可以胜过神经切向核。

Sep, 2022

可控稀疏 Softmax 替代方案

研究基于概率分布的机器学习任务中，提出了几种概率映射函数，为了控制稀疏度，开发出了一个统一框架并提出了两种新的 sparse formulations，并在多标签分类场景中开发了新的凸损失函数，用于计算注意力权重，从而在类似神经机器翻译和抽象摘要等标准 seq2seq 任务上获得更好的性能。

Oct, 2018

稀疏梯度的差分隐私优化

在大型嵌入模型应用的推动下，我们研究了带有个体梯度稀疏性的差分隐私（DP）优化问题，我们得到了经典均值估计问题的新近最优界限，但这是在稀疏数据情况下，改进了先前的算法，特别是在高维情况下。在此基础上，我们提出了几乎最优的 DP 算法和近似 DP 算法，用于具有稀疏梯度的随机凸优化问题；前者首次提供了几乎与维度无关的速率。最后，我们研究了近似 DP 优化中经验损失的稳定点近似，并得到了依赖于稀疏性而非维度的速率，除了对数因子。

Apr, 2024

结构化输出预测的细粒度泛化分析

本文研究机器学习中的结构化输出预测问题，通过提出基于算法稳定性的新型高概率界限和期望的泛化界限，改进了该领域的研究。同时，本文扩展了该领域的研究对象到弱相关数据。

May, 2021

高维随机优化与稀疏统计恢复：一种最优算法

研究了基于 Nesterov 的对偶平均算法的随机优化算法，在预期损失是强凸的且最优解是（近似）稀疏的问题上进行优化，证明了在局部 Lipschitz 损失下，在 T 轮迭代后，我们的解决方案的误差最多为 O（（slogp）/T），并确立了我们的收敛率是最佳的，且在数值模拟中通过对最小二乘回归问题进行几个基准线的比较，证实了我们方法的有效性。

Jul, 2012

神经网络梯度下降训练中的普适性尺度律

本文通过对梯度下降训练的神经网络的优化轨迹进行研究，展示了学习轨迹可以用大训练时间的显式渐近特征描述。

May, 2021

噪声误导稀疏目标上的旋转不变算法

添加噪音后，旋转不变算法在观察到 d 个或更多实例之后仍然是次优的；我们通过对旋转对称问题的贝叶斯最优算法的一个下界证明了这一点，并对简单的非旋转不变算法在同一问题中进行了更低的上界证明；最后，我们分析了一些简单情况下许多标准优化算法的梯度流轨迹，展示了它们朝着或远离稀疏目标的方向发展；我们相信我们的轨迹分类方法在设计能够利用稀疏目标的算法中将是有用的，而我们证明下界的方法对于分析其他拥有不同不变性类别的算法族将是至关重要的。

Mar, 2024