Nov, 2023

临床机器学习中的有效性问题:间接数据标注使用共识定义

TL;DR机器学习在医学疾病诊断这一关键应用领域存在一个有效性问题,当训练数据中的目标标签通过间接测量确定时,若基础测量数据包括在输入数据表示中,则机器学习模型只会学会复原已知目标定义,导致模型在与其类似的测试数据上表现完美,但在现实世界中,当定义的基础测量无法完全获取时,模型将在可接近灾难的程度上失败。我们提出了一个通用的流程用于识别存在问题的数据集和黑盒机器学习模型,并将我们的检测流程应用于败血症早期预测任务。