高维回归的置信区间和假设检验
针对高维线性回归模型的参数拟合问题,考虑基于Lasso惩罚的最小二乘估计器的置信区间和p值的构造及去偏的版本,进一步在随机设计模型的情形下进行研究,并提出了更优的平均检测功率的分析结果。
Nov, 2013
本研究提出了一种在高维线性模型中测试线性假设的方法,可以不对模型的大小(即模型的稀疏性或表示假设的加载向量)进行任何限制,并通过测试与新设计的重组回归模型相关的时刻条件来实现。
Oct, 2016
本文研究了高维情况下正则化逻辑回归(RLR),其中加入了鼓励所需结构的凸正则项。通过求解一组非线性方程组,我们提供了RLR性能的精确分析,并获得了各种性能度量的显式表达式。我们进行了广泛的数值模拟,并在各种参数值和问题实例中验证了理论。
Jun, 2019
我们研究了在协变量和响应函数都存在重尾污染的情况下, 强鲁棒回归估计器的高维特性。尤其是, 我们针对一族包括无二阶甚至更高阶矩不存在情况下的椭圆形协变量和噪声数据分布, 提供了M-估计的锐性渐近特性描述。我们表明, 尽管具有一致性, 在存在重尾噪声的高维情形中, 优化调整的Huber损失与位置参数δ是次优的, 强调了需要进一步正则化以达到最佳性能的必要性。这个结果还揭示了δ作为样本复杂性和污染的函数的一个有趣的转变的存在。此外, 我们导出了岭回归的超额风险的衰减速率。我们表明, 对于有限二阶矩的噪声分布, 岭回归虽然是最佳的且适用的, 但当协变量的二阶矩不存在时, 它的衰减速率可能会更快。最后, 我们展示了我们的公式可以方便地推广到更丰富的模型和数据分布, 如对混合模型的任意凸正则化训练的广义线性估计。
Sep, 2023
使用任意预测模型构建置信区间,不依赖于噪音模型并可扩展至非严格线性函数,采用混合整数线性规划框架进行优化和参数坐标的置信区间提取,适用于假设检验,并通过合成数据验证了方法的实证适用性。
Jan, 2024
我们通过估计有限维度数据的偏差项的均值和方差,利用高维集中现象,从而得到非渐近置信区间,从而纠正了一类大范围预测器的置信区间,扩展至稀疏回归和数据驱动预测器如神经网络,提高了基于模型的深度学习的可靠性。
Jul, 2024
本研究解决了使用机器学习算法构建预测模型时存在的预测准确性不稳定问题,尤其是在数据集随机划分带来的挑战。通过构建33600个糖尿病诊断模型并进行评估,结果表明其预测准确性受到初始状态的影响,因此采用统计区间估计方法对模型的预测准确性进行了公平比较,展现了该方法在提升模型比较公正性方面的潜力。
Sep, 2024
本研究解决了在机器学习中评估预测模型质量时缺乏有效置信区间方法的问题。通过对13种不同方法的系统比较,该研究提出了一种统一框架,明确了各种组合的可靠性,并识别出推荐的方法。研究结果为后续相关研究提供了基础,并通过在OpenML上发布数据集和在GitHub上提供代码,促进了研究的开展。
Sep, 2024