正交过参数化训练
研究浅层神经网络在过参数化情况下,如何使用二次激活函数进行训练并找到全局最优解,结果表明此方法适用于具有任意输入 / 输出对的任何训练数据,并可使用各种本地搜索启发式方法高效地找到全局最优解。同时,对於差分激活函数,我们也证明了梯度下降法在得到合适的初值后可以以线性速度收敛到全局最优解,它的输入来自符合高斯分布的选定属性且标记是通过种植的重量系数生成的。
Jul, 2017
本文探讨了神经网络的过度参数化现象对于梯度下降收敛至全域最优解所需的程度及类型,并结合实验结果以浅层神经网络和平滑激活函数为例,证明了只需参数数量高于数据集大小的平方根时,梯度下降随机初始化即可收敛至全域最优解。
Feb, 2019
本文研究神经网络的鲁棒性问题,通过对抗训练的方法提高神经网络对抗扰动的鲁棒性。研究表明,通过对抗训练,网络可以收敛到一个鲁棒的分类器,传统的交叉熵损失函数不适用于训练鲁棒的分类器,也因此需要引入代理损失,并证明鲁棒插值需要更大的模型容量。
Jun, 2019
我们提出了一种名为 “最优偏移” 的新方法,通过改变神经网络的参数从一个尖锐的极小值到一个更平坦的极小值,同时保持相同的训练损失值,以此来提高神经网络的泛化能力。我们的方法基于以下观察:当固定神经网络的输入和输出时,网络内的矩阵乘法可以被看作是欠定线性方程组的解空间,通过解决一个有约束的优化问题可以简单地调整参数。此外,我们引入了一种利用神经坍缩理论减少计算成本并提供更多最优偏移自由度的实用随机最优偏移技术。通过在基准数据集上使用各种深度神经网络结构进行广泛的实验(包括分类和检测),验证了我们方法的有效性。
May, 2024
在本研究中,我们引入了一类新的结构化矩阵,统一并推广了之前工作中的结构化类,以进一步改进参数和计算效率。我们还将这种参数化方法用于修改正交微调框架,在不同领域进行了实证验证,包括文本与图像扩散模型的自适应和语言建模中的下游任务微调。此外,我们还将我们的结构化构造用于正交卷积,并进行了 1-Lipschitz 神经网络的实验。
Jun, 2024
本文提供了一种改进的分析方法来探究(随机)梯度下降训练深度神经网络的全局收敛,该方法比之前的研究工作以更加温和的过度参数化条件确定了问题相关参数的大小,包括更紧密的梯度下限和更清晰的算法轨迹路径描述。
Jun, 2019
本文提出了一种基于 Lie 群理论的指数映射参数化方法,将带有正交和酉约束的优化问题转化为欧几里德空间上的无约束问题,并在 RNN 中得到了应用,改进了正交约束优化问题的稳定性和收敛速度。
Jan, 2019
本文提出,使用神经网络所引入的函数隐式偏置以改善结构优化的参数化,通过优化神经网络参数来代替在网格上直接优化密度,使得优化结果更为理想,在 116 个结构优化任务中,我们的方法比最佳基线方法更为有效。
Sep, 2019