- 基于类别的激活解读深度双下降之谜
该研究重新审视了双下降现象,探讨其发生条件,并引入类激活矩阵的概念和一种估计函数有效复杂性的方法,揭示超参数化模型在隐藏激活中展现出更明显和更简单的类别模式。通过全面分析并提供相应的实证证据来验证或反驳这些假设,旨在为双下降现象和良性超参数 - 快速训练,表现更佳:过参数化模型中的模块自适应训练
通过研究超参数模型的细粒度、模块级的学习动态,本文提出了一种更高效、更有成效的训练策略。实证研究表明,模块的学习质量与其模块神经切线核的主特征值密切相关。在此发现的基础上,提出了模块自适应训练策略,通过选择更新具有超过动态阈值的主特征值,优 - 过参数化对于超出分布之外的普适性的益处
研究了过参数化模型在 Out-of-Distribution 问题下的性能,发现模型容量的增加和模型集成有助于提高 OOD 推广能力。
- 基于现实假设的核回归泛化
对于几乎所有常见和现实设置,本论文旨在提供一种统一的理论来上界核回归的超额风险。通过提供适用于常见核函数和任意正则化、噪声、输入维度和样本数量的严格界限,并提供核矩阵特征值的相对扰动界限,揭示了核矩阵的特征值尾部分布形成一种隐式正则化现象, - 增强可再生能源的统一机器学习任务与数据集
通过引入集合 ETT-17(Energy Transition Tasks-17)和一种多任务机器学习模型,该研究分析了与增强可再生能源相关的 17 个数据集,并提供了性能基准。
- 局部自适应的可微回归
通过在对应的局部区域中基于局部学习模型的加权平均构建全局连续和可微模型的一般框架,我们在处理具有不同密度或不同局部区域功能值范围的数据方面取得了竞争优势,并且通过在局部模型中混合核脊回归和多项式回归项并连续地拼接它们,我们在理论上实现了更快 - 自适应 Polyak 步长和线性搜索的 SGD 算法:稳健收敛和方差降低
该研究提出了两种新的变体的随机 Polyak 步长和随机线性搜索算法,名为 AdaSPS 和 AdaSLS,它们保证了在非插值设置下的收敛,并在训练超参数化模型时维持凸函数和强凸函数的次线性和线性收敛速度。此外,通过引入方差缩减技术,这些算 - 损失地形的曲率研究
通过分析嵌入的黎曼流形的微分几何性质,我们研究了损失景观,并展示了与潜在推理相关的几个设置之间的联系。
- 遵守法律,跟随流程:梯度流的保守定律
文章旨在通过在 Jacobin 生成的 Lie 代数上进行有限维代数操作,揭示守恒定律的定义,性质和数量,该定律是在任何训练数据和任何损失函数的情况下保留给定模型的梯度流期间独立数量的最大集合。
- 基于混合重赋权的子种群转移方法
提出一种名为 RMIX 的简单实用的框架来解决超参数化神经网络中意义重要性加权方法效果不佳的问题,从而更好地应对含不同子群比例的训练和测试分布的子群转移问题,并通过混合样本上的重要性加权来获取更鲁棒的模型。同时,RMIX 还利用训练轨迹的不 - 超参数化情况下随机重排的快速收敛及 Polyak-Łojasiewicz 条件
研究了过度参数化的机器学习模型,提出了抽样无替换的 SGD 变体 - random reshuffling-,并证明了在一些假设条件下,它可以比 SGD 更快地收敛。此外,对于 Polyak-L ojasiewicz (PL) 函数类问题, - Doge Tickets:通过刮刮乐发现领域通用语言模型
本文为了寻求一种领域通用的语言模型,提出从预训练语言模型中鉴别领域无关的参数,实现利用 Doge tickets 方式来提高文本在不同领域上的推广性能优化。通过实验验证表明,将中性参数组成领域通用的语言模型可以得到更好性能。
- 通过尺度解锁高精度差分隐私图像分类
本文主要研究采用差分隐私保护方法进行深度学习的训练,并在调优超参数以及利用一些技巧来提高信号传播和收敛速度的基础上,在图像分类任务中获得了新的最高精度,证明了采用过参数化模型的 DP-SGD 方法也可以实现更好的性能,这是在私有和非私有图像 - 使用不可分解目标训练超参数模型
本文提出一种新的代价敏感损失函数,以解决标签代价权重重新加权训练在过度参数化模型中可能导致的问题,并进行了 ResNet 模型的实验验证。
- 深度网络中的早停法:双重下降及其消除方法
本文探讨了过度参数化模型,特别是深度神经网络,在训练期间错误率的演化现象,其原因是来自于不同部分在不同时期学习带来的偏差 - 方差权衡嵌套问题。通过合理调整步长,可以显著提高早停指标。
- 过参数非线性系统和神经网络中的损失景观和优化
本文提出了一种现代观点和一般性的数学框架,用于涵盖超参数机器学习模型和非线性方程组的损失景观和高效优化,其中包括超参数深度神经网络,并说明这些系统的 PL$^*$ 条件密切相关,这解释了(S)GD 对全局最小值的收敛,并提出了一个放松 PL - SGD 的随机 Polyak 步长:快速收敛的自适应学习率
本文介绍了一种新颖的随机 Polyak 步长方法,称为 SPS,它可以有效地用于随机梯度下降,特别是在训练超参数化模型时表现良好,并且在不需要任何与问题相关的常数或额外计算开销的情况下收敛速度快,并且与其他优化方法相比表现出色。
- ICLR最近邻算法中插值的优势
本研究通过研究最近邻算法的类等权重方案,量化了数据内插法的好处,并证明了数据内插法可以在最佳 kNN 算法的基础上具有更好的预测精度和统计稳定性,在解释二次下降现象方面提供了理论依据。
- 基于 Walsh-Hadamard 的变分推理用于贝叶斯深度学习
这篇文章提出了一种名为 Walsh-Hadamard Variational Inference(WHVI)的方法,通过降低参数化和加速计算来避免过度正则化问题,从而应用于超参数化模型的近似贝叶斯推断,理论和实验结果表明,WHVI 相较于其 - 线性神经网络中离散梯度动态的隐式正则化
本文研究了过参数化模型的离散梯度动态,并证明在使用适当超参数和初始化条件时,该动态可以学习降低秩的回归问题的解。