- 完美拟合对表示学习的影响:深度神经网络中的表示训练动态
通过揭示深度神经网络(DNNs)在训练过程中的演变,本文重点关注在过度参数化学习环境下,训练持续进行的情况,探讨了学习表示的演变以及层级之间的相似性和线性分类器探针的相似度等指标,并发现了与相对层级深度、DNN 宽度和架构有关的训练动态模式 - 随机特征的广义化性能改善的最优非线性
通过对等效模型的参数进行研究,本文通过优化非线性激活函数,实现了对给定监督学习问题的改善,验证了这些优化的非线性函数在回归和分类问题中比常用的非线性函数(如 ReLU 函数)具有更好的泛化性能,并且缓解了所谓的 “双峰下降” 现象。
- 插值回归模型和双下降现象分析
本篇论文提出了一个回归模型的理论,在训练数据中具有比数据点更多的参数,这种模型被称为过度参数化模型,有能力插值训练数据,最好的模型是过度参数化的,与模型阶数呈双峰形。我们分析了最小二乘问题的最小化的解的内插模型,以及使用岭回归进行模型拟合的 - 递归特征机器的特征缩放
本研究通过对回归数据集的一系列实验研究,探讨了一种新型核机器 —— 递归特征机的行为,发现与神经网络行为类似的双下降现象表现,揭示了 RFMs 和神经网络行为之间的新联系,为未来的研究打下了基础。
- 深度神经网络是否能避免双重下降现象?
在深度学习模型中,找到最佳大小对于节能取得高广泛影响。 通过恰当的条件,可能避免双下降现象,其中模型大小增长时性能会先变差然后变好,以维持高泛化的效果需要充分过参数化的模型,但添加太多参数会浪费培训资源。在复杂情况下,正则化已经对避免双下降 - 重复数据学习的可解释性和缩放定律
本文研究大型语言模型中反复数据对性能的影响机理,并发现了一个强烈的双下降现象,即重复数据可能导致测试损失在训练中途上升。实验表明,反复数据对模型的性能造成了明显的损害,可能会导致模型从泛化到记忆出现转移。
- 使用随机特征学习的精确性能分析
本文研究无法可知函数的学习问题,主要贡献在于使用高斯数据对这种学习问题进行精确的渐近分析。在特征矩阵的温和正则条件下,本文提供了在低参数与高参数模式下渐近的训练和泛化误差的精确刻画。该分析适用于一般的特征矩阵、激活函数和凸损失函数家族。数值 - 深度网络中的早停法:双重下降及其消除方法
本文探讨了过度参数化模型,特别是深度神经网络,在训练期间错误率的演化现象,其原因是来自于不同部分在不同时期学习带来的偏差 - 方差权衡嵌套问题。通过合理调整步长,可以显著提高早停指标。
- 超参数化和泛化误差:加权三角插值
该论文分析了在过参数化的线性学习问题中,平滑性和低泛化误差之间的关系,并研究了随机傅里叶级数模型,在该模型中,通过等距采样来估计未知傅里叶系数,研究了常规和加权最小二乘估计器的泛化误差,展示了加权三角形插值可以带来较小的过参数化泛化误差。
- 超参数线性回归中的最优加权 L2 正则化
本文对过参数线性模型中采用广义(加重)岭回归估计系数的预测风险进行了分析,并探讨了在偏好一定系数分布时参数的最优预测,以及过参数现象在主成分回归中的具体表现,进而提出了在无偏估计与最优正则化问题中,加权目标函数方法的优越性。
- ICLR最近邻算法中插值的优势
本研究通过研究最近邻算法的类等权重方案,量化了数据内插法的好处,并证明了数据内插法可以在最佳 kNN 算法的基础上具有更好的预测精度和统计稳定性,在解释二次下降现象方面提供了理论依据。