利用倾斜方法进行高维变量选取
本文讨论了在高维模型中进行变量选择时可以给出什么样的统计保证,并以某些多阶段回归方法的误差率和功率为例。我们考虑了三种筛选方法:套索、边际回归和前向逐步回归,提出了在某些条件下一致的变量选择方法。
Apr, 2007
本文简要介绍了高维统计推断中变量选择的理论、方法和实现的最近发展,强调单峰罚函数的统计性质及其在高维统计建模中的作用,同时还回顾了独立筛选和两种方法在超高维变量选择方面的最近进展。
Oct, 2009
变量重要性在可解释机器学习中起着关键作用,它有助于衡量因素对预测模型输出的影响。我们的研究重点是评估和评估旨在解决变量重要性评估中特征相关性问题的方法,如条件预测影响(CPI)等,我们首先进行综合模拟研究,调查特征相关性对变量重要性评估的影响,然后通过 knockoff 构造从理论上证明高相关特征对 CPI 的限制。我们的发现强调了处理高特征相关性时的困难和方法在变量重要性评估中的实用性和局限性的必要性。
Feb, 2024
本文提出了一种因子方法来同时考虑模型选择和功能回归的视角,通过将预测向量分解为反映解释变量的共同因素和特定变异性的两个不相关随机分量,以包括主成分作为额外的解释变量在增广回归模型中,维度高于样本大小的线性回归问题中传统假设的稀疏向量参数是具有限制性的,模型选择程序可以用于估计增广模型的参数,并得出其理论性质和有限样本表现。
Feb, 2012
本篇论文针对高维回归或分类框架中预测变量高度相关的情况下的变量选择问题,研究使用随机森林算法的变量选择。论文提供了一种理论研究和模拟实验的方式,证明了使用递归特征排除算法作为排名标准对变量进行选择的高效性,并进行了陆地卫星数据集的测试。
Oct, 2013
本研究提出了一种方法,可以在高维线性模型中构建一般假设的 p 值。该方法可用于测试单个回归参数或涉及多个甚至所有参数的假设,同时考虑到 p 值之间的依赖关系,进行多重比较校正。该技术基于 Ridge 估计和在高维度中的投影偏差上增加的修正项,我们证明了我们的 p 值具有强大的误差控制,并提供了充分的检测条件,同时在模拟实例和真实数据应用中演示了该方法。
Feb, 2012
本文提出了一种新的特征选择方法,使用 Shapley 值来研究每个变量对预测的影响,以应对数据集漂移和变量关系变化的情况,并通过分析电力市场的例子进行验证。
Apr, 2023
研究的主要目标是解决高维非线性变量选择的问题,提出了一种基于多核学习框架和有向无环图的核函数选择方法,能够以多项式时间选择核函数,具有高预测性能。
Sep, 2009