Feb, 2024

kNN 算法在条件均值和方差估计中的自动不确定性量化和变量选择

TL;DR本研究介绍了一种基于 kNN 的回归方法,它结合了传统非参数 kNN 模型的可扩展性和适应性以及新颖的变量选择技术,主要关注准确估计随机响应变量的条件均值和方差,从而有效地刻画不同场景下的条件分布特征。我们的方法结合了条件均值和方差的先验估计工作,引入了一个稳健的不确定性量化机制。采用 kNN 确保了预测区间的可扩展计算效率和统计准确性,与最优非参数率一致。此外,我们还介绍了一种新的 kNN 半参数算法,用于估计考虑协变量的 ROC 曲线。为了选择平滑参数 k,我们提出了一个具有理论保证的算法。变量选择的引入在各种建模任务中明显提高了该方法的性能,相对于传统的 kNN 技术。通过在低维、中维和高维协变量空间中进行模拟验证了该方法的有效性。该算法在两个案例研究中展示了特别显著的生物医学应用。最后,通过理论分析,我们强调了我们的方法相对于传统 kNN 模型的一致性和收敛速率,特别是当基础回归模型取值在低维空间时。