数据智能：表格数据中异质结果的群体特征刻画

Oct, 2022

数据智能：表格数据中异质结果的群体特征刻画

Data-IQ: Characterizing subgroups with heterogeneous outcomes in tabular data

Nabeel Seedat, Jonathan Crabbé, Ioana Bica, Mihaela van der Schaar

TL;DR该研究提出了一种名为Data-IQ的框架来对医疗数据集中的具有相似特征但不同结果的患者进行数据分层，并将其分为易于预测、模糊和难以预测三个互斥组群，实验结果表明该方法能够有效地提高模型的性能和可靠性，并有助于相关领域的特征提取和数据集筛选。

Abstract

High model performance, on average, can hide that models may systematically underperform on subgroups of the data. We consider the tabular setting, which surfaces the unique issue of outcome heterogeneity - this

发现论文，激发创造

ICU中不同患者人群的多任务学习任务

提出了一个两步的框架，通过序列自动编码器无监督地学习相关病人子群并在多任务框架中对分开的病人群体进行预测，以提高住院死亡率的预测性能。需要更细粒度的绩效评估来处理异质人口。

Jun, 2018

模型修补：通过数据增强缩小子群表现差距

介绍了一种用于改善机器学习模型性能不稳定的框架——模型修补，并采用数据增强和类间信息的变换来使得模型不受亚组差异影响，通过 CAMEL 的实验结果证明了模型修补方法的有效性。

Aug, 2020

关于随机种子对临床分类器公平性的影响

本研究探究了深度学习模型训练中随机种子变化对模型公平性的影响，并使用MIMIC-III的临床预测任务验证了该现象，结果显示小样本和随机性可能导致结果的表面差异，同时同时优化高性能和低差异性并不能显著提高模型性能。

Apr, 2021

Data-SUITE: 数据中心识别内分布不一致示例

利用Data-SUITE实现数据有效性定量化，针对in-distribution数据中不一致区域的问题，该框架结合copula建模，表示学习和符合性预测，提供特征级信赖区间估计器，可回答哪些测试实例可以可靠地由模型进行预测和识别特征空间中的不一致区域。

Feb, 2022

无模型特征选择以促进表格数据中发现不同子组

该论文提出了一个面向数据的AI框架，可以自动选择重要特征，实现自动发现不同的数据子组并提高检测性能。通过在MIMIC-III和Allstate Claims公开数据集上的验证，该框架比现有的六种特征选择方法减少了81倍和104倍的特征选择时间，并实现了有竞争力的检测性能。

Mar, 2022

朝着结果驱动的患者亚群：六项抑郁症治疗研究的机器学习分析

通过神经网络模型和机器学习技术，我们发现患者的原型可以用于识别与治疗反应相关的患者群体，并生成适当的治疗方案，这可能有助于精准医学治疗抑郁症。

Mar, 2023

基于数据驱动的线性回归子群识别

本文提出DDGroup方法，一种基于数据的方法，能够有效识别在特征和标签之间具有统一线性关系的数据子群组。DDGroup可以发现参数法无法发现的具有 qualitatively different relationships 的数据子群组。

Apr, 2023

MMM和MMMSynth：异构表格数据的聚类和合成数据生成

我们提供了一种针对异构表格数据集的聚类和合成数据生成的新算法。我们展示了一种名为MMM（Madras混合模型）的创新EM-based聚类算法，该算法在确定合成异构数据的聚类和恢复真实数据的结构方面优于标准算法。基于此，我们展示了一种名为MMMsynth的合成表格数据生成算法，该算法对输入数据进行预聚类，并在输入列中假定簇特定的数据分布来生成簇特定的合成数据。我们通过测试标准机器学习算法在合成数据上进行训练并在实际发布的数据集上进行测试来对此算法进行基准测试。我们的合成数据生成算法优于其他文献中的表格数据生成器，并接近仅使用真实数据进行训练的性能表现。

Oct, 2023

将倾向分数方法与变分自编码器相结合，用于生成具有潜在子群的合成数据

使用变分自编码器和倾向性评分回归相结合的方法生成合成数据，使其能够忠实地反映临床队列的结构和异质性。

Dec, 2023

低性能机器学习在表格生物医学数据中的特征重要性有效性

本研究探讨了低性能机器学习模型在表格生物医学数据分析中的特征重要性问题，挑战了高准确率是讨论特征重要性的前提这一传统观念。研究发现，在数据量充足的情况下，尽管模型性能较低，特征重要性依然可以有效区分。这一发现为医学数据分析中的特征重要性评估提供了重要的理论支持与应用前景。

Sep, 2024