超参数化为什么会加剧虚假相关性的调查
通过合成和半合成实验,我们对无监督学习中的超参数化不同方面进行了实证研究,发现在各种模型(如嘈杂 OR 网络、稀疏编码、概率上下文自由语法)和训练算法(如变分推断、交替最小化、期望最大化)中,超参数化可以显著增加回收潜在变量的数量。
Jun, 2019
我们研究了一个过参数化的高斯混合模型,结合了 “重要性权重”,对一个插值解的内分布和外分布的测试误差进行了严格的分析,发现了最坏情况下分布偏移鲁棒性和平均准确度之间的新的权衡关系。
May, 2024
在大规模实证研究中,结合四个不同的开源胸部 X 光数据集和九个不同标签的组合的情况下,通过数据来自两家医院进行训练的模型在两个医院的最差组精度方面甚至比仅使用单家医院的数据进行训练的模型更差。这种出人意料的结果是由于医院特定的图像伪相关性造成的,同时说明了训练多个数据集的权衡,即额外数据的明显好处和引入伪相关性的隐蔽成本。这些风险凸显了在未来的研究和实践中对于仔细的数据选择和模型评估的需求。
Aug, 2023
本文通过研究感知偏差的强度程度,探讨了过度拟合噪声现象所谓 “良性过度拟合” 或 “无害插值” 时的影响因素,给出了高维卷积核回归收敛界限的紧密非渐进限制,并提供了旋转不变性差异的不同滤波器尺寸深度神经网络的经验证据。
Jan, 2023
为解决对于干扰数据的过度拟合而影响泛化效果,我们提出了一种基于稀疏过参数化和隐式正则化的优化方案,通过对标签噪声进行建模和分离,实现了对于训练数据中的噪声数据清洗,最终获得了在多个真实数据集上较先进的测试结果,同时为优化过度参数化模型开辟了许多有趣的方向。
Feb, 2022
本研究探讨了深度神经网络在训练数据含有噪声且参数个数超过数据点个数时,仍能够实现零训练误差且具有泛化能力的机制,并阐述了过拟合和特征选择不佳对泛化能力的影响。
Mar, 2019
本文探讨了过度参数化模型的精度问题,提出了一种名为 “importance tempering” 的方法来解决分布偏移问题,并在实验中取得了最佳状态分类任务的最佳结果。
Sep, 2022
组不平衡在实证风险最小化(ERM)中是一个已知的问题,这篇论文通过高斯混合模型定量分析个体组对样本复杂度、收敛速度以及测试性能的影响,提供了 ERM 组级泛化的首个理论分析,并验证了理论结果在合成和实际数据集上的有效性。
Mar, 2024
本文概述了 “过参数化机器学习” 的新理论,通过统计信号处理的角度解释最近研究发现的相应现象和结果,着重强调了这个研究领域的独特性和开放的问题。
Sep, 2021
在高参数化线性回归领域中,出现了一个令人惊讶的现象,即当样本数少于特征维数时,测试误差会随着样本增加而增加,即更多的数据反而会伤害估计器。该现象是近期理论研究分析线性模型中 “双下降” 现象的一部分。在本文中,我们以线性回归为预测模型,通过对具有各向同性高斯协方差矩阵的数据集进行分析,对该现象进行了总结和阐述。
Dec, 2019