May, 2024
机器学习在医疗领域的样本选择偏差
Sample Selection Bias in Machine Learning for Healthcare
TL;DR机器学习算法在个性化医学中具有潜力,但其临床应用仍受到限制。研究表明,样本选择偏差(SSB)是限制其采用的一个关键因素。本研究通过检验SSB对机器学习算法性能的影响,指出了潜在的风险,并提出了一种新的研究方向,该方向基于目标人群的识别而非偏差校正来解决SSB问题。实验结果表明,SSB可能导致算法在目标人群上的性能大幅下降,并且对于从研究人群中选取的代表性和非选取患者的目标子人群的性能存在显著差异。此外,我们提出的技术在不同数据集大小、事件率和选择率的各种场景下展现出稳健性,优于现有的偏差校正技术。