Oct, 2023

简化模型之路始于噪声

TL;DR在本研究中,我们探讨了数据生成过程中的机制以及分析师在学习过程中做出的选择,以确定 Rashomon 比率的大小。我们证明了更嘈杂的数据集通过从业者训练模型的方式导致较大的 Rashomon 比率。此外,我们还引入了一种称为模式多样性的度量,该度量捕捉了 Rashomon 集中不同分类模式之间的平均预测差异,并解释了它为什么会随着标签噪声的增加而增加。我们的结果解释了为什么简单模型在复杂且有噪声的数据集上通常能和黑盒子模型表现一样好的一个关键因素。