- 随机梯度下降的信息理论泛化界
本研究研究了随机梯度下降(SGD)这种普遍使用的随机优化方法的泛化特性,提供了依赖于在 SGD 计算的迭代路径上评估的随机梯度的本地统计信息的泛化误差的理论上限,其关键因素是梯度的方差及目标函数沿 SGD 路径的局部光滑性以及损失函数对最终 - 高维核回归:超越双谷现象的细致分析
该研究通过建立偏差 - 方差分解方法,研究了高维核岭回归在欠参数和过参数情况下的泛化性能特征, 揭示了特定的正则化方案下偏差和方差与训练数据数量 n 和特征维度 d 的组合方式对核回归风险曲线的形状的影响。
- 关于多层 ReLU 网络相关的 Banach 空间:函数表示、逼近理论和梯度下降动态
本文提出了适用于 ReLU 神经网络的 Banach 空间,其中包含了所有有限全连接 L 层网络及其 L^2 - 极限对象,具有低的 Rademacher 复杂性和良好的泛化特性,函数可以通过多层神经网络进行近似,收敛速率与维度无关。
- 神经网络中的豪斯多夫维数、重尾及泛化
本文提出了一种使用 Feller 过程来逼近 SGD 轨迹以及使用 Hausdorff 维度控制相关广义误差的学习理论框架,同时提出了使用 Feller 过程的尾部指数作为 “容量度量” 的概念,可用于估计广义误差,并且与参数数量不同于现有 - MM风险敏感学习的学习界限
本文提出了对通过优化确定性等价描述的具有不同风险表示的风险敏感学习方案的概括性质进行研究的方法,提供了针对经验 OCE 最小化器的两个学习边界,并通过神经网络实验演示了所提边界的实际意义。
- 深度模型参数计数的重新思考:有效维度再审视
通过有效维度的视角,我们研究了神经网络在参数计数作为复杂度代理时的一些奇妙的泛化特性,包括双下降现象、模型选择、宽度 - 深度权衡和损失曲面的功能多样性,发现通过有效维度可以更好地了解深度模型中参数和函数之间的相互作用,并且比其他基于范数或 - 用于拍卖设计的置换等变神经网络结构
通过使用具有置换等变性的神经结构,建立一个新的拍卖设计方法,提高对拍卖设计的预期收益和一般化性能。
- 贝叶斯深度学习与概率泛化的视角
使用贝叶斯较量的关键是无脊柱化,这可以提高现代深度神经网络的准确性和校准性,因为这些网络通常被数据欠规范,可以表示许多引人入胜但不同的解决方案。我们展示了深度集合提供了一个近似贝叶斯无脊柱化的有效机制,并提出了一种相关方法,通过在吸引盆地内 - 从弱点中汲取力量:利用弱监督进行快速学习
本研究探讨弱监督学习的泛化特性,证明了借助弱标签可以显著加速强任务的学习速率,实现 O (1/n) 的快速率,研究结果可适用于各类任务,说明弱标签如何加速强任务的学习。
- ICML重新审视元学习作为监督学习
本文提出了一个基于对元学习与传统监督学习之间联系的重新审视和加强的原则性统一框架,通过把任务特定数据集和目标模型看作(特征、标签)样本,我们可以把许多元学习算法归约到监督学习的实例中,进一步提高了元学习的表现。
- 通过条件互信息推理广义化问题
该论文提出了一个信息理论框架来研究机器学习算法的泛化性能,利用条件互信息量化算法输出和训练数据之间的关系,并提出基于 VC 维、压缩方案、差分隐私等方法来获得有界的条件互信息,从而得出泛化的各种形式。
- 超参数神经网络的最小范数解的泛化误差
我们研究了三种过度参数化的机器学习模型的最小范数解的概括性质,证明了只要模型的参数化程度足够高,最小范数解的泛化误差可与蒙特卡洛速率相当,至少相当于一些对数项。
- 无限宽深度神经网络无穷集合中的信息
研究无限集合的无限宽神经网络的泛化特性,在信息论数量上计算,寻找与泛化相关的信号。
- 深度网络中的理论问题:逼近、优化和泛化
简述:对深度学习的理论研究逐渐深入,从表示能力到优化、从梯度下降的泛化性质到固有隐藏复杂性的到达方式,已经有了一些解释;通过在分类任务中使用经典的均匀收敛结果,我们证明了在每个层的权重矩阵上施加单位范数约束下最小化替代指数型损失函数的有效性 - 经验风险的最小化和风险单调性
该研究提出了风险单调性的正式概念,其要求风险不会随着培训集大小的增加而期望恶化。此外,该研究还发现了各种标准学习器(特别是最小化经验风险的学习器)可以在培训样本大小上无脑不单调,这为新的研究方向开辟了一条全新的途径。
- 过度参数化模型中的核心和丰富区域
研究发现神经网络在过参量化后,当行为符合核化线性预测器时,在梯度下降的训练下能找到最小 RKHS 范数解;与此不同的是,梯度下降在过参量化的多层网络上可能引入不是 RKHS 范数的丰富隐性偏差。本文基于 Chizat 和 Bach 的观察, - 关于 SARAH 及超出其的收敛性
本文提出了一种称为 L2S 的算法,扩展了一种方差缩减方法 SARAH,并证明了在凸问题中 L2S 的复杂性为 O (n+sqrt (n)/epsilon)。我们的实验结果表明,L2S 可能比 SARAH 具有更好的泛化性能。
- 重新思考泛化需要重新审视旧观念:统计力学方法和复杂学习行为
本文介绍了一种超越当前流行的最坏情况的理论控制框架,重新审视神经网络的统计力学的古老理论,并使用一个名为 VSDL 的模型来描述当算法过早停止或输入加噪声时会增加的温度和减少的数据量对深度神经网络的控制效果,进而提供了关于其过度拟合训练数据 - 一种结构预测的一致性正则化方法
我们提出并分析了一种规则化方法,用于结构化预测问题。我们表征了一大类损失函数,允许在线性空间中自然地嵌入结构化输出。我们利用这一事实设计了学习算法,使用代理损失方法和规则化技术。我们证明了所提出的方法的普遍一致性和有限样本边界,表征了所提出 - NIPS随机特征学习的泛化性能
本研究探讨了统计学习框架下随机特征稀疏化岭回归的泛化性质,结果显示仅需 O(根号 n*log n)个随机特征即可实现 O(1 / 根号 n)的学习界限,优于之前的提法;此外我们证明了一系列快速学习速率及其潜在影响,研究证明了及格自适应分配随