Nov, 2023

基于示例的随机森林预测解释

TL;DR通过计算训练示例的标签和由森林叶子确定的一组权重之间的数量积可以得到一个随机森林预测;因此,每个预测可以由这些权重非零的训练示例集来解释。研究发现,这种解释所涉及的示例数量与训练集的维度和随机森林算法的超参数有关,这意味着可以通过变化这些参数在一定程度上控制每个预测所涉及的示例数量。然而,对于导致所需预测性能的设置而言,每个预测所涉及的示例数量可能过大,使用户无法掌握解释。为了提供更有用的解释,提出了一种修改后的预测过程,只包括具有最高权重的示例。对回归和分类任务的研究表明,与标准预测过程相比,可以显著减少每个解释中使用的示例数量,同时仍然保持或提高预测性能。