- 神经网络的实际灵活性如何?
神经网络对数据的拟合能力的研究发现,标准优化算法找到的最小值只能适应参数比样本数量少很多的训练集,卷积网络比多层感知机和视觉注意力变换模型更有效,随机梯度下降在拟合训练集方面比全批量梯度下降更好,对于正确和错误标记样本的拟合能力差异可以预测 - ICML一个通用的尖锐感知最小化算法类
最近,对于过参数化模型开发优化算法的兴趣不断增加,因为普遍认为实现泛化需要具有适当偏差的算法。本文针对仅考虑少数尖锐度测量值的文献提出了新的尖锐度测量方法,并证明了这些测量方法的普遍表达性,以及它们如何对模型的参数不变性有着显著的影响。此外 - 解开样本大小和初始效果对单神经元目标完美泛化的影响
过参数化模型,如深度神经网络,具有通过较少的采样数据点恢复目标函数的有趣能力。本研究集中研究了单神经元目标恢复场景,并系统地考察了初始化和样本大小对双层神经网络性能的影响。我们的实验证明,更小的初始化尺度与改善泛化有关,并确定了一个关键数量 - 超参数化领域中 “重要性加权” 估计器的离群错误的尖锐分析
我们研究了一个过参数化的高斯混合模型,结合了 “重要性权重”,对一个插值解的内分布和外分布的测试误差进行了严格的分析,发现了最坏情况下分布偏移鲁棒性和平均准确度之间的新的权衡关系。
- 懒人(NTK)和富人(μP)的领域:温和教程
现代机器学习范式的核心主题是更大的神经网络在各种度量指标上具有更好的性能。本文对这些过参数化模型的理论分析最近集中在研究非常宽的神经网络。我们通过一个非严格但富有说明性的推导,解释了以下事实:为了有效地训练宽网络,在选择学习率和初始权重大小 - 通过低维度学习动力学高效压缩超参数化深度模型
通过研究过度参数化的深度网络的学习动力学,我们揭示了各种体系结构的权重矩阵展现出低维结构,我们利用这些洞见通过减小中间层的宽度来压缩深度线性网络,实验证明这种压缩技术能够加速训练过程超过两倍,而不牺牲模型质量。
- 超参数模型的插值信息准则
本研究考虑了拟合估计器模型选择问题,其中模型参数的数量超过数据集的大小。研究者们通过建立双重欠定参数模型来解决了模型选择问题,提出了一种新的统计量,称为插值信息准则(Interpolating Information Criterion)。 - 深度异方差回归病理的理解
本文从统计物理的角度研究了使用异方差神经回归模型对实际数据建模时遇到的困难,并且通过推导出的非参数自由能得出结论,证明了二阶段变化的存在,本文提供了异方差回归模型的理论解释,并提出一种优化正则化的方案。
- 高维情境臂材料问题无需稀疏
研究高维线性情境赌博问题,提出了探索后承诺(EtC)算法和自适应探索后承诺(AEtC)算法,通过分析表明这些算法可以在探索和利用之间找到最佳平衡,最终对算法的性能进行了评估。
- 通过权重归一化实现强大的隐式正则化
本文研究了使用梯度下降与权重归一化进行训练的经过参数化的模型所具有的内在偏向性,并证明了权重归一化的方法可以在对角线性模型中具有稀疏解的内在偏向性。
- 过拟合元学习的泛化性能理论特征化
本文研究了使用高斯特征的线性回归模型下过拟合元学习的泛化性能,发现过拟合的 MAML 最小 L2 规范解可以有效降低泛化误差。
- ICLR强归纳偏置可证明防止无害插值
本文通过研究感知偏差的强度程度,探讨了过度拟合噪声现象所谓 “良性过度拟合” 或 “无害插值” 时的影响因素,给出了高维卷积核回归收敛界限的紧密非渐进限制,并提供了旋转不变性差异的不同滤波器尺寸深度神经网络的经验证据。
- 重要性调节:过参数模型的群体鲁棒性
本文探讨了过度参数化模型的精度问题,提出了一种名为 “importance tempering” 的方法来解决分布偏移问题,并在实验中取得了最佳状态分类任务的最佳结果。
- ICML裁剪内部层:一种用于高效 U-Net GAN 的结构化剪枝策略
本研究通过分层修剪来压缩过度参数化的 U-Net 生成器,以用于图像到图像的翻译和语音驱动的说话人生成上,并呈现了学习结构化修剪内层的过滤器来提高效率的结果。
- 不仅仅是玩具:随机矩阵模型预测现实世界神经表示如何泛化
研究了机器学习模型泛化的定量现象,发现基于核回归的大规模神经网络和真实数据的核函数理论分析往往无法捕捉到这些现象,然而基于 GCV 估算器的实证研究结果表明该方法可以在这种超参数化的情境下准确预测泛化风险,并证明了 GCV 估算器在满足局部 - ICLR通用重新加权为何不优于 ERM
本文介绍了一种名为广义重加权算法(GRW)的类别,它通过迭代地重新加权训练样本来更新模型参数。我们发现在采用 GRW 算法的过拟合模型下,所得到的模型与采用 Empirical risk minimization 得到的模型非常相似。此外, - 从超参数化机器学习理论的角度看偏差 - 方差折中问题的再思考
本文概述了 “过参数化机器学习” 的新理论,通过统计信号处理的角度解释最近研究发现的相应现象和结果,着重强调了这个研究领域的独特性和开放的问题。
- MM小的随机初始化类似于谱学习:超参数低秩矩阵重建的优化和泛化保证
本文针对超参数模型上的梯度下降进行了研究,证明小随机初始化后的梯度下降与受欢迎的谱方法相似,并且可以在全局最优解附近泛化良好。具体而言,对于通过自然的非凸公式重构低秩矩阵的问题,我们证明了梯度下降迭代的轨迹可以近似分解为三个阶段。
- 针对高效改善泛化性能的锐度感知最小化
本文引入了一种新颖、有效的程序,即 Sharpness-Aware Minimization (SAM),通过在局部参数空间中同时最小化损失值和损失锐度,以提高模型泛化能力。实验结果表明,SAM 在多个数据集和模型上都取得了最新的最好结果, - 岭回归中的良性过拟合
本研究探讨了过参数化模型在插值噪声数据时的行为,分析了数据的协方差结构和高效秩的子空间是如何影响该现象的发生,并提供了正则化条件下的结果。