用组概率加权树求和解释异质数据建模

May, 2022

用组概率加权树求和解释异质数据建模

Group Probability-Weighted Tree Sums for Interpretable Modeling of Heterogeneous Data

Keyan Nasseri, Chandan Singh, James Duncan, Aaron Kornblith, Bin Yu

TL;DR我们提出了一种新方法，名为 G-FIGS ，可以在医疗领域等高风险领域中处理有限的训练数据，同时保持模型的可解释性。该方法使用实例的权重在数据集中有效地汇集不同组，生成简明的基于规则的模型。在一些重要的临床数据集上，与 CART 和 FIGS 唯一相比，G-FIGS 可用于增加特异度，从而提高诊断敏感性，同时维持 FIGS 的规则数量在 16 条以下，且规则与医学领域的专业知识相匹配。

Abstract

machine learning in high-stakes domains, such as healthcare, faces two critical challenges: (1) generalizing to diverse data distributions given limited training data while (2) maintaining →

发现论文，激发创造

ICU中不同患者人群的多任务学习任务

提出了一个两步的框架，通过序列自动编码器无监督地学习相关病人子群并在多任务框架中对分开的病人群体进行预测，以提高住院死亡率的预测性能。需要更细粒度的绩效评估来处理异质人口。

Jun, 2018

通过最优树实现可解释的聚类

本文介绍了一种新的无监督学习算法，利用混合整数优化技术生成可解释的基于树的聚类模型，以提高群集算法的可解释性，并在医疗应用中具有重要意义。

Dec, 2018

树状可解释人工智能：从局部解释到全局理解

通过运用博弈论、局部特征交互作用效应和全局模型结构，我们实现了对基于树的机器学习模型的高可解释性，应用于三个医疗机器学习问题，在透露模型全局结构的同时保持其基本特征，识别出美国人口中高强度但低频率的非线性死亡风险因素，突显具有共同危险特征的明显人口亚组，识别出慢性肾脏疾病危险因素之间的非线性交互作用效应，并监测在医院部署的机器学习模型（Identifying factors leading to model's performance decay over time）

May, 2019

概括性界限和表示学习用于估计潜在结果和因果效应

本文研究了从记录的上下文、决策和结果中估计单个患者对替代药物的反应的个体层面因果效应的估计，并给出了基于不同治疗组之间的距离度量的误差的概括界限，引导了表示学习算法的开发，该算法通过规范化表示的诱导治疗组距离，鼓励治疗组之间信息的共享来最小化误差的界限。最后，对真实和合成数据的实验评估表明了所提出的表示架构和规范化方案的价值。

Jan, 2020

快速可解释的贪心树求和 (FIGS)

FIGS算法提出了一种同时生长多棵树的机制，从而在保持控制树的大小和数量的前提下，实现了简洁的基于规则的模型的拟合。FIGS算法通过分离加性组件来减少重复分裂所造成的冗余，提高了单棵树的预测性能。在多个真实世界的数据集上的实验结果表明，FIGS算法在结合高预测性能的同时，能够避免重复分裂和提供比拟合决策树更简洁的决策规则。

Jan, 2022

数据智能：表格数据中异质结果的群体特征刻画

该研究提出了一种名为Data-IQ的框架来对医疗数据集中的具有相似特征但不同结果的患者进行数据分层，并将其分为易于预测、模糊和难以预测三个互斥组群，实验结果表明该方法能够有效地提高模型的性能和可靠性，并有助于相关领域的特征提取和数据集筛选。

Oct, 2022

基于数据驱动的线性回归子群识别

本文提出DDGroup方法，一种基于数据的方法，能够有效识别在特征和标签之间具有统一线性关系的数据子群组。DDGroup可以发现参数法无法发现的具有 qualitatively different relationships 的数据子群组。

Apr, 2023

因果规则学习：通过加权因果规则提升对异质化治疗效果的理解

我们提出了因果规则学习方法，用于估计和增强对异质性治疗效应的理解，通过解答一个被以前研究忽略的问题，即一个个体是否同时属于多个具有不同平均治疗效应的组。模拟和真实数据分析证明了因果规则学习在复杂的地面真实情况和充足样本量时对异质性治疗效应的可解释估计的卓越性能。

Oct, 2023

慢性病患者轨迹的数据驱动分组：以腰痛为例的证据

通过混合隐马尔可夫模型对长期疾病患者轨迹进行亚群分组，从而实现个性化医疗，该模型在研究中表现出较常见基准的优势

Apr, 2024

用于可解释无监督树集合的特征图：中心性、交互性及在疾病亚型划分中的应用

在医疗保健等高风险领域中，可以理解模型预测原理同实现高预测准确性一样重要的可解释机器学习已成为利用人工智能的核心。本研究引入了从非监督随机森林构建特征图的新方法和通过这些图派生有效特征组合的特征选择策略，通过在整个数据集和个别聚类上构造特征图，利用树中的父子节点分割，使特征的重要性与聚类任务相关，同时边权重反映特征对的判别能力，从而广泛评估了基于图的特征选择方法在合成和基准数据集上降低维度、改善聚类性能和增强模型可解释性的能力。对于疾病亚类型鉴定的组学数据应用，确定了每个聚类的顶级特征，展示了提出方法在聚类分析中提高解释性和在现实世界的生物医学应用中的实用性。

Apr, 2024