MIMIC-IV 数据集上深度学习模型的可解释性和公平性评估
使用 MIMIC-IV 数据集研究 XGBoost 二元分类模型在预测 ICU 住院时间方面的公平性和偏见,并强调该研究对 ICU 有限资源分配的重要性,通过在人口属性上检测数据集的类别不平衡,并采用数据预处理和特征提取,发现 XGBoost 模型整体表现良好,但是在种族和保险属性上出现不平等,提出了关于缓解偏见的关注公平机器学习技术的建议,并强调医疗保健专业人员和数据科学家之间的合作努力的必要性。
Dec, 2023
本篇论文通过 MIMIC-III 数据集进行临床预测任务(如死亡率预测、住院时间预测以及 ICD-9 编码分组预测)的基准测试,结果表明,相较于基于机器学习模型和预测评分系统,深度学习模型在使用原始临床时间序列数据作为输入特征时有更好的表现。
Oct, 2017
我们提出了一个可解释的框架 - 公平感知可解释建模(FAIM),以提高模型的公平性,同时保持性能,通过交互界面从一组高性能模型中识别出一个 “更公平” 的模型,并推动数据驱动证据和临床经验的整合,以增强情境公平性。我们通过使用两个真实世界数据库(MIMIC-IV-ED 和 SGH-ED)在预测入院时减少性别和种族偏见方面展示了 FAIM 的价值。我们展示了针对这两个数据集,FAIM 模型不仅表现出令人满意的区分能力,而且通过广泛使用的公平度量指标显著减轻了偏见,胜过常用的偏见减轻方法。我们的方法展示了在不牺牲性能的情况下提高公平性的可行性,并提供一种邀请领域专家参与的建模模式,促进定制人工智能公平性的多学科工作。
Mar, 2024
电子健康记录(EHR)与应用机器学习解决领域内的各种问题越来越受欢迎,而这一增长的研究领域也引发了对 EHR 可访问性的需求。本研究的目标是填补 MIMIC-IV 最新版本的 MIMIC 数据集的基准测试工作的不足,并提供一个详细的文献调查,对已经完成的 MIIMIC-III 研究进行评估。
Jan, 2024
综合评估医疗机器学习的基准,提出一种基于医学信息志 (MIMIC-III) 的基准,让我们可以直接比较预测性能,并评估生存率、住院时间、表型和患者恶化任务的进展。我们发现,在这些任务上,尽管社区参与度高,但在过去的三年里,几乎没有真正显著的进展。通过我们的元分析,我们发现,深度递归模型的性能仅在某些任务上优于逻辑回归。最后综合这些结果,提出未来医学机器学习基准所需的理想特性。
Oct, 2020
研究使用大型医院拥有的心电图数据库来建模和预测患者死亡率,通过与两种神经网络架构比较四种深度存活建模方法以及在一到十年内的绩效评估,结果表明 AUROC 和协调性得分与以往工作相当(约 0.8),考虑到与死亡率相关的心电图样本的比例(MIMIC-IV:27%,Code-15:4%),AUPRC 得分合理(MIMIC-IV:0.4-0.5,Code-15:0.05-0.13)。
Jun, 2024
本研究利用回溯检验提取的两个队列,发展了一种新的伪动态机器学习框架,用于重症监护病房的死亡预测,实现了可解释性和临床风险分析,并成功地结合了时间序列生理测量技术,从而能够提供时间分辨率的解释结果。
May, 2023
本文提出了一个基于 MIMIC-IV 公共电子病历数据集的 ICD 编码公共基准套件,使数据预处理标准化并建立全面的 ICD 编码基准数据集,加速未来研究中采用自动 ICD 编码的进展。
Apr, 2023
该研究展示了机器学习系统在通过风险评分预测患者不良事件方面的巨大潜力,但未来介入干预政策会对风险评分产生影响,所以在此提出了一种联合模型来更加明确地传达有关未来干预的假设。通过将典型风险评分与未来干预概率评分相结合,可以提供更可解释的临床预测。
Jul, 2022
本研究针对 30 天再入院问题,提出一种基于机器学习 ML 的临床数据分类流程,以及对基于敏感属性的子组进行公平性审计,发现了不同属性组之间的公平性问题,结果强调了需要更好的公平性和偏见缓解策略,并建议研究人员、政策制定者和从业人员合作解决人工智能系统中的偏见和公平问题。
Apr, 2023