Sep, 2023

随机森林中超参数对变量选择的影响

TL;DR随机森林 (RF) 在高维物质研究中的预测建模和变量选择方面具有很好的适用性。超参数在 RF 算法对预测性能和变量重要性估计的影响已被研究,然而,超参数对基于 RF 的变量选择的影响尚不清楚。本文使用理论分布和实验基因表达数据进行两个模拟研究,评估了 Vita 和 Boruta 变量选择程序的效果。我们评估了这些程序在选择重要变量(敏感性)的能力和控制假发现率(FDR)之间的平衡。结果表明,分割候选变量的比例(mtry.prop)和训练数据集的样本比例(sample.fraction)对选择程序的影响大于训练数据集的抽取策略和最小终端节点大小。RF 超参数的适当设置取决于数据中的相关结构。对于弱相关的预测变量,mtry 的默认值是最优的,但较小的 sample.fraction 值会导致更大的敏感性。相反,对于强相关的预测变量,最优值与默认值相比的敏感性差异可忽略,而在其他情况下较小的值更好。总之,超参数的默认值并非总是适合于识别重要变量。因此,适当的取值因研究的目标是否在于优化预测性能或变量选择而异。