简化模型之路始于噪声

Oct, 2023

A Path to Simpler Models Starts With Noise

Lesia Semenova, Harry Chen, Ronald Parr, Cynthia Rudin

TL;DR在本研究中，我们探讨了数据生成过程中的机制以及分析师在学习过程中做出的选择，以确定 Rashomon 比率的大小。我们证明了更嘈杂的数据集通过从业者训练模型的方式导致较大的 Rashomon 比率。此外，我们还引入了一种称为模式多样性的度量，该度量捕捉了 Rashomon 集中不同分类模式之间的平均预测差异，并解释了它为什么会随着标签噪声的增加而增加。我们的结果解释了为什么简单模型在复杂且有噪声的数据集上通常能和黑盒子模型表现一样好的一个关键因素。

Abstract

The rashomon set is the set of models that perform approximately equally well on a given dataset, and the rashomon ratio is the fraction of all models in a given hypothesis space that are in the →

rashomon set rashomon ratio tabular datasets rashomon ratios simpler models

发现论文，激发创造

无穷假设集的拉什蒙比率

在给定分类问题和一系列分类器的情况下，Rashomon 比率度量了产生小于给定损失的分类器所占的比例。我们考虑了无限分类器组的更一般情况，证明了 Rashomon 比率的增加可以保证在从分类器组的随机子集中选择具有最佳经验准确性的分类器，从而提高泛化能力，不会增加太多经验损失。我们通过两个示例量化了无限分类器组中的 Rashomon 比率，以说明其中 Rashomon 比率较大的情况。一种示例是使用线性分类器对正态分布类别进行分类，我们估计了其 Rashomon 比率。另一种示例是当分类器组由双层 ReLU 神经网络组成时，根据修改的 Gram 矩阵，我们得到了 Rashomon 比率的下界。一般来说，我们证明可以使用训练数据集和分类器组的随机样本来估计 Rashomon 比率，并提供了这种估计接近真实 Rashomon 比率值的保证。

Apr, 2024

拉什莫曼集助于医疗数据解释的探索

该论文介绍了一种新的过程，用于探索 Rashomon 集合模型，并延伸传统的建模方法。其核心是通过引入 Rashomon_DETECT 算法来识别 Rashomon 集合中的最不同模型，该算法比较揭示预测依赖于变量值的配置文件，以量化模型之间的变量效果差异，进而展示了该方法在预测医学数据中的有效性和多功能性。

Aug, 2023

探究稀疏决策树的整个拉绍门集

首次提供了一种完整枚举稀疏决策树中 Rashomon set 的技术，并通过特定的数据结构提供高效的查询和抽样，该技术可以使用户在精度相近的所有模型中实现无前提选择，并展示了三个应用，包括研究变量的重要性、平衡精度和 F1 得分的 Rashomon set 的枚举以及使用完整数据集产生只使用数据子集构建的 Rashomon set。

Sep, 2022

高效勘探规则集模型的拉肖蒙集合

本研究提出了一种高效的方法，可在有限的搜索中探索具有或不具有穷尽搜索的规则集模型的 Rashomon 集合。广泛的实验证明了所提方法在各种情况下的有效性。

Jun, 2024

不平衡分类中平衡方法的拉细幕效应实验研究

通过 Rashomon 效应研究平衡方法对预测多样性的影响，发现平衡方法会增加预测多样性并产生不同结果。为了在建模过程中负责任地监控性能和预测多样性之间的权衡，我们提出使用扩展性能增益图进行模型选择。

Mar, 2024

解释性机器学习中罗生门效应的实证评估

本研究分析了 Rashomon 效应对可解释机器学习的影响，提供了三种不同比较场景的统一视角，并在不同数据集、模型、归因方法和指标上进行了定量评估，结果发现超参数调整和指标选择对结果有实质影响，并为科学家和实践者带来挑战。

Jun, 2023

基于 Dropout 的 Rashomon 集探索技术用于高效的预测乘性估计

通过利用 dropout 技术来探索 Rashomon 集合中的模型，提出了一个用于衡量和减轻预测多样性的新框架，通过严格的理论推导和实验证明该技术在预测多样性度量估计方面始终优于基准方法，并通过 dropout 集成和模型选择实现了高效的 Rashomon 集合探索和度量估计。

Feb, 2024

理解和探索一整套好的稀疏广义可加模型

本文提出一种方法，以高效准确地近似表示稀疏广义加性模型中的 Rashomon set, 并使用这个集合作为解决实际挑战的基础，例如查找符合用户指定限制的模型，研究变量重要性，调查形状函数的突变等。

Mar, 2023

利用罗合分割法鲁棒地估计因子数据的异质性

我们提出了一种叫做 Rashomon Partition Sets（RPSs）的替代性方法，用于在具有相关结构的协变量中对协变量组合进行划分，并应用于统计分析、先验、近似误差和实证设置。

Apr, 2024

能否达成一致？论罗生门效应与事后可解释人工智能的可靠性

在 Rash\=omon 效应的样本集中，本研究使用 SHAP 对模型的解释进行了影响样本大小的研究。在 5 个公共数据集上的实验显示，随着样本量的增加，解释逐渐趋于一致。少于 128 个样本的解释具有很高的变异性，限制了可靠的知识提取。然而，随着数据增加，不同模型之间的一致性得到了提高，使得达成共识成为可能。集成方法通常具有更高的一致性。这些结果为信任解释提供了指导。低样本数量时的变异性意味着没有验证可能导致结论的不可靠性。还需要更多关于模型类型、数据领域和解释方法方面的研究。检验神经网络和特定模型解释方法的收敛性将具有重大的影响。所探讨的方法为从模糊模型中获取知识提供了原则性的技术。

Aug, 2023