线性模型中迭代算法的不确定性量化及其在提前停止中的应用
本文介绍了在高维环境下,使用M-estimators在广义线性回归模型中需要风险最小化,并提出了第一个IHT样式算法在高维统计学中的分析框架,这对于稀疏回归和低秩矩阵恢复等问题具有实际应用价值。
Oct, 2014
本文证明了当损失函数为亚高斯函数时,基于互信息计算的以经验风险最小化为主要准则的监督机器学习算法对训练数据过拟合的泛化误差上界,此外还探究了噪声受限的迭代算法的泛化误差上界。
Jan, 2018
本文研究了应用于最小二乘回归问题的梯度下降迭代的统计特性,将其与岭回归的风险进行比较。研究发现,在梯度下降的整个路径上,其风险不低于岭回归的1.69倍,并在平均信号下保持相对风险边界,同时考虑了极限风险表达式和支撑数值实验。
Oct, 2018
本文研究了混合线性回归中带有干扰项的迭代最小残差平方法,提出了ILTS的全局算法并在等方差高斯特征下进行评估,结果表明在坏的训练数据设置下,循环拟合最佳样本子集可以确保达到最先进的性能。
Feb, 2019
研究了神经网络在最小二乘设置中的应用,讨论了随机梯度下降与最终迭代的相关性,并在统计和优化双重视角下给出了多项式瞬时收敛率的解读,建立与再生核希尔伯特空间的联系。
Feb, 2021
我们对标准差分隐私梯度下降方法在线性回归中的分析进行了改进,得出基于输入的合理假设,在每个时间步骤上迭代的分布特征。我们的分析结果揭示了算法的准确性新的发现:对于适当选择的超参数,样本复杂度仅与数据维度呈线性关系。这与(非私有)普通最小二乘估计器以及依赖于复杂的自适应梯度裁剪方案的最新私有算法(Varshney等,2022年;Liu等,2023年)的维度相关性一致。我们对迭代分布的分析还允许我们构建适应特定数据集算法的方差的置信区间。我们通过对合成数据进行实验证实了我们的定理。
Feb, 2024
分析了在高维最小二乘回归中应用的广义交叉验证(GCV)和留一交叉验证(LOOCV)的统计特性,证明了GCV作为早期停止梯度下降的预测风险估计量普遍不一致,而LOOCV则沿着梯度下降轨迹一致收敛于预测风险。利用个别LOOCV误差,构建了整个梯度下降轨迹上预测误差分布的一致估计量和广泛的误差函数的一致估计量,这特别使得基于GD迭代的路径预测区间在培训数据条件下具有渐近正确的名义覆盖率。
Feb, 2024
线性回归问题中,我们分析了离散全批量梯度下降的参数轨迹和期望过度风险,证明了使用学习率调度和有限时间内的早停解与广义岭正则化问题的最小范数解等价,并表明早停对于具有任意频谱和多种学习率调度的一般数据都是有益的。我们给出了最佳停止时间的估计并通过实验证明了估计的准确性。
Jun, 2024
本文研究了线性回归中带Dropout正则化的随机梯度下降(SGD)迭代的渐近理论,填补了现有文献对此问题的理论空白。通过建立几何矩收缩性(GMC),作者展示了Dropout递归函数存在唯一的平稳分布,并提出了针对ASGD Dropout的在线协方差矩阵估计方法,为后续递归推断提供了高效的计算框架。实验结果表明,该方法在大样本情况下的置信区间几乎达到了名义覆盖概率。
Sep, 2024
本文研究了在高维鲁棒回归问题中,通过梯度下降(GD)、随机梯度下降(SGD)及其近端变体获得的迭代结果的泛化性能。通过引入合适条件下可证明一致的估计量,我们提供了明确的泛化误差估计,并有效地确定了最小化泛化误差的最佳停止迭代。
Oct, 2024