机器学习算法在个性化医学中具有潜力,但其临床应用仍受到限制。研究表明,样本选择偏差(SSB)是限制其采用的一个关键因素。本研究通过检验 SSB 对机器学习算法性能的影响,指出了潜在的风险,并提出了一种新的研究方向,该方向基于目标人群的识别而非偏差校正来解决 SSB 问题。实验结果表明,SSB 可能导致算法在目标人群上的性能大幅下降,并且对于从研究人群中选取的代表性和非选取患者的目标子人群的性能存在显著差异。此外,我们提出的技术在不同数据集大小、事件率和选择率的各种场景下展现出稳健性,优于现有的偏差校正技术。
May, 2024
本文提出了一种建立在鲁棒性预测推断上的不确定性估计模型,使用 conformal inference 方法建立了准确覆盖测试数据分布的预测集,通过估计数据漂移量建立了鲁棒性,并在多个基准数据集上进行了实验证明了该方法的重要性。
Aug, 2020
探讨了在实际应用中常见的基于配分转移的问题,提出了一种选择性增广的简单混合技术 LISA,通过学习不受限制的内部表示或预测器来学习不变的预测器,并在包括亚种人群转移和领域转移的九个基准测试中验证了 LISA 的有效性。
Jan, 2022
本研究提出了一种名为分布鲁棒安全样本筛选(DRSSS)的机器学习方法,旨在识别不必要的训练样本,即使训练样本的分布在未来发生变化。通过将分布鲁棒(DR)范式与安全样本筛选(SSS)有效地结合起来,我们实现了此目标。我们通过扩展现有的 SSS 技术来适应权重不确定性,使得 DRSSS 方法能够可靠地在指定范围内的任何未来分布下识别不必要的样本。我们为 DRSSS 方法提供了理论保证,并通过对合成和真实世界数据集的数值实验验证了其性能。
Jun, 2024
本文提出了一种新型的 Deep Global Balancing Regression(DGBR)算法,该算法可以同时优化深度自编码模型和全局平衡模型,以实现特征选择和稳定预测。通过实证实验,该算法表现出比现有最先进的方法更好的表现。
Jun, 2018
介绍了一种新颖的子集扫描方法,用于检测统计学显著的偏差或区域,以及识别分类器偏差或预测不良的特征子集,该方法使用基于子集扫描和参数引导的方法处理了指数级可能的子集。
Nov, 2016
本文提出 COnfidence-baSed MOdel Selection(CosMoS)方法,基于模型置信度动态选择不同强度的模型来在多数和少数子群体上实现高性能,并使用多个数据集验证其性能。
Jun, 2023
本研究提出了一种新的预测方法 StableMiss,通过利用存在于每个 mask 下的不变最优预测器的思想,采用双重参数技术来近似联合学习最优预测器,以达到对于缺失数据下的分布转移具有稳定性和较强的预测性能。
May, 2023
通过改进的测试程序,我们引入了一种新的基于改变点检测的校准测试方法,可以有效评估风险预测模型的准确性和算法的公平性。
Jul, 2023
研究机器学习算法偏差对预测精度的影响时,应考虑稳定性因素,本文提出了一种基于概念一致性的稳定性度量方法,讨论了稳定性、预测精度和偏差之间的关系。
Dec, 2002