- 线性回归中的缩放定律:计算、参数和数据
大规模深度学习模型的实证研究表明,随着模型大小和数据规模的增加,训练模型的测试误差呈多项式改进;然而,神经缩放定律的一般形式预测增加模型大小会单调改善性能,这与传统的认知不同,即测试误差包含逼近、偏差和方差误差,并且方差错误随模型大小增加而 - 无维度确定性随机特征回归的等效
我们研究了随机特征岭回归(RFRR)的泛化性能,并提供了其测试误差的一般确定性等价物。具体而言,在一定的集中性质下,我们表明测试误差可以用一个闭式表达式来良好近似,该表达式仅依赖于特征映射的特征值。值得注意的是,我们的近似保证是非渐近的、乘 - 深度结构(随机)特征的学习渐近性
我们提供了一种针对大类特征映射的紧密渐近特征错误的表征,其中输入维度、隐藏层宽度和训练样本数在高维极限下成比例增加。我们的工作部分是受到了学习具有高斯彩虹神经网络的问题的启发,即具有随机但结构化权重的深层非线性全连接网络,它们的行协方差进一 - 使用真实数据和替代数据进行学习的规模定律
整合替代数据对模型训练的测试误差有显著减少作用,所需使用经验风险最小化进行加权至关重要,模型训练中真实与替代数据混合的测试误差可通过标度律预测最优加权及替代数据的利益。
- S-GBDT:节俭差分隐私梯度提升决策树
隐私保护学习梯度提升决策树(GBDT)可对标准表格数据具有很强的效用 - 隐私权衡潜力,采用差分隐私作为验证隐私属性的最新方法,并利用四种主要技术改善了效用 - 隐私权衡。
- (核)岭回归过拟合成本的无神论观点
本文通过分析基于高斯全局性假设的非严谨风险估计来探究噪声核岭回归中过拟合的代价,并对其进行了更精细的分类:良性、温和和灾难性过拟合。
- 随机特征回归模型的最优激活函数
针对随机特征回归模型(RFR)的渐近均方测试误差和灵敏度进行了深入研究,找到了一系列在不同的函数简洁性定义下最小化 RFR 测试误差和灵敏度的激活函数族,并确定了优化的激活函数在 RFR 模型的特定属性下的影响。
- 通过分歧评估 SGD 的泛化能力
该研究表明,通过在同一训练集上使用不同的 Stochastic Gradient Descent 算法训练相同结构的神经网络,并测量两个网络在无标签测试数据上的不一致率,我们可以简单地估计深度网络的测试误差。同时理论上证明了该现象产生的原因 - 深度神经网络的性能与对于微分同胚的相对稳定性相关
通过定义最大熵概率分布,研究了给定范数下的典型微分同胚,确认了深度学习中关于稳定性的一些传统假设,以及微分同胚相对于普通变换的稳定性与测试误差之间的相关性。
- ICML关于过拟合两层神经切向核模型的泛化能力
本文研究具有 ReLU 激活函数且没有偏差项的两层神经网络的神经切向核(NTK)模型的 min(L2)-norm 过拟合解的泛化性能,并显示随着神经元数目 p 的增加,测试误差表现出不同于具有简单傅里叶或高斯特征的过度参数化线性模型的 “双 - 深度网络分析的学习曲线
本研究探讨如何利用学习曲线来评估设计选择,例如预训练、架构和数据增强,发现了几个有趣的观察结果。
- ICLR深度引导框架:好的在线学习者是好的离线泛化者
我们提出了一个新的深度学习推广理论框架,通过将优化器从经验损失下取随机梯度步骤的现实世界与从总体损失下取步骤的理想世界相结合,将测试误差分解成理想世界测试误差和两个世界间差距两部分,进而将离线学习中的泛化问题简化为在线学习中的优化问题,实验 - ICML使用梯度下降法学习单层神经网络的超多项式下界
利用梯度下降证明了学习单层神经网络的第一个超多项式下限,它包括使用小批量的梯度下降,需要锐利的激活函数和适用于特定查询的以前结果。与以前的结果不同,我们的结果适用于包括 ReLU 和 sigmoid 在内的广泛激活类别,并且围绕一种新型神经 - 随机矩阵分析随机傅里叶特征:超越高斯核,精确的相变和相应的双下降
本文讨论基于随机傅里叶核(RFF)的回归模型的精确渐进特征,研究表明在数据样本数、数据维度和特征空间维度等三个因素中为大且可比较的实际场景下,随机 RFF Gram 矩阵不再收敛于著名的极限高斯核矩阵而是有一个可处理的行为,双重下降测试误差 - 无切线的神经核函数
通过研究神经网络和内核空间中的简单构建块之间的联系,我们提出了一种从特征组中创建 “组合” 内核的代数。在实验中,我们发现神经网络体系结构和相关内核的测试误差之间存在相关性,并构建了一个只使用 3x3 卷积、2x2 平均池化、ReLU 并使 - 随机特征模型的隐式正则化
本文探讨了随机特征模型和核岭回归之间的联系,并发现了有限 RF 取样的隐式正则化效应,同时对比了使用 KRR 预测器的风险和使用 RF 预测器的平均风险并获得了它们之间差异的明确界限,最终在实验中发现了平均 λ-RF 预测和 tilde λ - 用对数次数即可使浅层 ReLU 网络梯度下降达到任意小的测试误差
该研究表明,通过梯度下降训练过度参数化的神经网络可以实现任意低的训练误差和测试误差。在两层 ReLU 网络中,只需要多项式量级的宽度和样本数量进行训练,可以达到较低的测试误差,并在无穷宽度下得出紧密样本复杂度分析。
- 对抗球体
研究表明,计算机视觉模型容易受到输入微小对抗扰动攻击,而该现象是由数据流形的高维几何性质引起的,结果表明神经网络的易受小型对抗性扰动攻击是测试误差的逻辑结果。
- ICLRSEARNN: 使用全局 - 局部损失训练循环神经网络
SEARNN 是一种基于 “学习搜索” 方法的递归神经网络(RNNs)训练算法,使用类似测试的搜索空间探索,引入了接近测试误差的全局局部损失,从而取得了复杂预测任务领域更好的表现。
- 随机深度深度网络
该研究提出了一种名为随机深度的训练方法,通过随机地去掉一部分神经网络层,降低训练时间,提高测试准确率,特别是对于残差网络这样深层数学习模型的训练和测试效果都得到了大幅提升。