提出了一个两步的框架,通过序列自动编码器无监督地学习相关病人子群并在多任务框架中对分开的病人群体进行预测,以提高住院死亡率的预测性能。需要更细粒度的绩效评估来处理异质人口。
Jun, 2018
介绍了一种用于改善机器学习模型性能不稳定的框架——模型修补,并采用数据增强和类间信息的变换来使得模型不受亚组差异影响,通过 CAMEL 的实验结果证明了模型修补方法的有效性。
Aug, 2020
本研究探究了深度学习模型训练中随机种子变化对模型公平性的影响,并使用MIMIC-III的临床预测任务验证了该现象,结果显示小样本和随机性可能导致结果的表面差异,同时同时优化高性能和低差异性并不能显著提高模型性能。
Apr, 2021
利用Data-SUITE实现数据有效性定量化,针对in-distribution数据中不一致区域的问题,该框架结合copula建模,表示学习和符合性预测,提供特征级信赖区间估计器,可回答哪些测试实例可以可靠地由模型进行预测和识别特征空间中的不一致区域。
Feb, 2022
该论文提出了一个面向数据的AI框架,可以自动选择重要特征,实现自动发现不同的数据子组并提高检测性能。通过在MIMIC-III和Allstate Claims公开数据集上的验证,该框架比现有的六种特征选择方法减少了81倍和104倍的特征选择时间,并实现了有竞争力的检测性能。
Mar, 2022
通过神经网络模型和机器学习技术,我们发现患者的原型可以用于识别与治疗反应相关的患者群体,并生成适当的治疗方案,这可能有助于精准医学治疗抑郁症。
Mar, 2023
本文提出DDGroup方法,一种基于数据的方法,能够有效识别在特征和标签之间具有统一线性关系的数据子群组。DDGroup可以发现参数法无法发现的具有 qualitatively different relationships 的数据子群组。
Apr, 2023
我们提供了一种针对异构表格数据集的聚类和合成数据生成的新算法。我们展示了一种名为MMM(Madras混合模型)的创新EM-based聚类算法,该算法在确定合成异构数据的聚类和恢复真实数据的结构方面优于标准算法。基于此,我们展示了一种名为MMMsynth的合成表格数据生成算法,该算法对输入数据进行预聚类,并在输入列中假定簇特定的数据分布来生成簇特定的合成数据。我们通过测试标准机器学习算法在合成数据上进行训练并在实际发布的数据集上进行测试来对此算法进行基准测试。我们的合成数据生成算法优于其他文献中的表格数据生成器,并接近仅使用真实数据进行训练的性能表现。
Oct, 2023
使用变分自编码器和倾向性评分回归相结合的方法生成合成数据,使其能够忠实地反映临床队列的结构和异质性。
Dec, 2023
本研究探讨了低性能机器学习模型在表格生物医学数据分析中的特征重要性问题,挑战了高准确率是讨论特征重要性的前提这一传统观念。研究发现,在数据量充足的情况下,尽管模型性能较低,特征重要性依然可以有效区分。这一发现为医学数据分析中的特征重要性评估提供了重要的理论支持与应用前景。
Sep, 2024