通过成对置换算法实现可解释模型

Nov, 2021

通过成对置换算法实现可解释模型

Interpretable Models via Pairwise permutations algorithm

Troy Maaslandand, João Pereira, Diogo Bastos, Marcus de Goffau, Max Nieuwdorp...

TL;DR本文提出了一种名为“pairwise permutation algorithm”的新方法，旨在缓解高维生物数据集中特征之间的相关性偏差对特征重要性评估的影响，并在玩具数据集和微生物组数据集中进行验证。

Abstract

One of the most common pitfalls often found in high dimensional biological data sets are correlations between the features. This may lead to statistical and machine learning methodologies overvaluing or undervaluing these correlated predictors, while the truly relevant ones are ignored. In this paper, we will define a new method called \textit{→

发现论文，激发创造

通过互信息排序生物标志物

本研究利用信息论方法对生物标记进行排序，并引入适用于小型或稀疏数据集的经验贝叶斯估计器和新的可视化工具，以探索预测和预后生物标记的强度，同时观察哪些生物标记具有更显著的预后或预测作用，从而在生物标记发现领域具有重要作用。

Dec, 2016

无限制置换强制外推: 变量重要性需要至少一个更多的模型，或者不存在自由变量重要性

本文研究回顾并反对使用 Permuate-and-predict 方法来解释黑盒函数，特别是在特征之间存在强依赖性时，常用的变量重要性度量、局部依赖图和个体条件期望图具有误导性，我们提出了使用额外建模来替代这些指标的建议，并描述了如何在保持数据特征独立性的情况下测量模型性能变化。

May, 2019

Parea: 癌症亚型发现的多视图集成聚类

Parea是一种多视角层次集成聚类方法，适用于疾病亚型发现，已成功应用于多种机器学习基准数据集和真实的多视角癌症患者数据，在七种癌症类型中有六个表现优于当前最先进的方法，已被集成到Python包Pyrea中，可轻松灵活地设计集成工作流程，并整合了各种融合和聚类算法。

Sep, 2022

应用数据工程方法解决微生物组数据挑战，以实现最优医疗决策

本研究利用数据工程算法解决肠道菌群数据的类别不平衡和高维问题，应用多个机器学习分类器以进行宿主表型的分类，表现出具有高预测准确率的优越性，并采用主成分分析（PCA）大大减少了测试时间。研究表明，微生物特征在物种级别上的分类精度最高，该原型对于实现个性化医疗具有很高的潜在价值。

Jun, 2023

MDI+: 一种基于随机森林的灵活特征重要性框架

本文介绍了一种名为MDI+的灵活的特征重要性框架，它使用广义线性模型（GLMs）和更适合给定数据结构的度量衡，并结合了额外的功能来缓解对加性或平滑模型的预测的已知偏差。经过广泛的基于数据的模拟和实际案例研究，并将MDI+应用于药物反应预测和乳腺癌亚型分类，结果表明，MDI+在提取预测基因方面优于现有的特征重要性度量，具有更高的稳定性。

Jul, 2023

通过条件排列统计有效变量重要性评估

我们提出了条件置换重要性（CPI）的系统方法，通过为复杂机器学习应用中的变量重要性评估提供精确的类型-I错误控制，并在大规模数据集和深度神经网络中的实证研究中表现出最高准确性。

Sep, 2023

高维情况下的变量重要性需要分组

解释机器学习算法的决策过程对模型性能提升和人类理解至关重要，通过评估单个变量的重要性来实现，甚至对于高容量的非线性方法，如深度神经网络（DNNs）。在高维设置中，引入了BCPI（基于块的条件排列重要性）作为一种新的通用框架来计算变量的重要性，具备统计保证并处理单个和群组情况。此外，通过将DNN架构扩展为适用于群组结构的次线性层，我们还引入了一种新的堆叠方法，以处理高基数群组，该方法在高度相关的群组中控制了一类错误，并在基准测试中展现了顶级准确性。此外，我们对大规模医学数据集进行了实际数据分析，旨在展示生物标志物预测方面的研究结果与文献的一致性。

Dec, 2023

置换不变函数：统计检验、度量熵降维和估计

本文主要研究排列不变性在机器学习中的应用，特别关注在多变量概率分布中如何统计性地检测排列不变性，以及排列不变性在简化维度估计中的作用，并针对此提出了测试方法和回归方法。

Mar, 2024

用于可解释无监督树集合的特征图：中心性、交互性及在疾病亚型划分中的应用

在医疗保健等高风险领域中，可以理解模型预测原理同实现高预测准确性一样重要的可解释机器学习已成为利用人工智能的核心。本研究引入了从非监督随机森林构建特征图的新方法和通过这些图派生有效特征组合的特征选择策略，通过在整个数据集和个别聚类上构造特征图，利用树中的父子节点分割，使特征的重要性与聚类任务相关，同时边权重反映特征对的判别能力，从而广泛评估了基于图的特征选择方法在合成和基准数据集上降低维度、改善聚类性能和增强模型可解释性的能力。对于疾病亚类型鉴定的组学数据应用，确定了每个聚类的顶级特征，展示了提出方法在聚类分析中提高解释性和在现实世界的生物医学应用中的实用性。

Apr, 2024

从非结构化数据中自动发现成对交互

本研究解决了如何从潜在变量受到的扰动中检测成对交互的问题。提出了两种基于成对干预的交互测试，并将其整合到主动学习流程中，以高效发现扰动之间的交互。在生物学实验中验证了这些测试的有效性，显示出显著超过随机搜索和传统主动学习方法的能力，能够恢复更多已知的生物交互。

Sep, 2024