所有模型都是局部的:用重复局部验证代替外部验证的时间
通过从目标人群中获取的新数据进行模型的外部验证,以确保验证性能的清晰用途和模型的可靠性,同时应该在模型开发期间谨慎调查模型的普适性,以开发并应用可靠、公平和可信的人工智能预测模型。
Apr, 2023
通过主动学习减少所需数据量并学习模型错误来获得本地有效性估计,而不是全局指标太不敏感或评估本地有效性成本过高。使用模型验证基准,提供实证证据表明该方法能够在使用相对较少的数据量时生成具有足够辨别性能的错误模型,同时相比于替代方法,对于本地有效性边界的局部变化具有增强的敏感性。
Jun, 2024
评估鉴于组织病理图像的机器学习模型在女性乳腺癌诊断、分类和预后方面的性能,并说明了外部验证的重要性和存在的挑战。
Dec, 2023
该研究提出了一种序列监测方案,通过考虑测量模型质量的时间依赖性,减少不必要的警报并解决多重测试问题,从而在检测模型质量相关变化方面优于基准方法。此研究为在动态环境中区分小幅波动和有意义的模型性能退化提供了实用解决方案,确保机器学习模型的可靠性。
Sep, 2023
研究了在电子健康记录上训练不同模型的稳定性,证明相同模型在相同训练数据上的重复训练会产生显著不同的结果,并提出了衡量模型的稳定性和提高模型稳定性的应对策略。
Nov, 2022
医学人工智能算法的泛化水平可以通过建立一个分层三级评估系统来反映,该系统更好地反映了真实医疗情境的多样性,其中用于重新校准模型的目标领域数据可能可用也可能不可用,并且如果可用的话,可能或可能不会系统地提供参考标签。
Nov, 2023
在这项研究中,我们对多源数据环境下的标准 K 折交叉验证和留源交叉验证方法进行了系统的实证评估,考虑了基于心电图的心血管疾病分类任务,并将 PhysioNet CinC Challenge 2021 和山东省医院的公开可用数据集进行了整合和协调。我们的结果表明,无论是单一源数据还是多源数据上的 K 折交叉验证都会在目标是推广到新的数据源时系统地高估预测性能。留源交叉验证提供了更可靠的性能估计,具有接近零的偏差但较大的可变性。这种评估凸显了关于在医学数据上获取具有误导性的交叉验证结果的危害,并展示了在拥有多源数据的情况下如何减轻这些问题。
Mar, 2024
通过将数据监督引入机器学习预测模型,我们提出了一种实时模型无关的方法,评估机器学习预测的相对可靠性,并通过针对操作数据集与训练数据集之间的差异来计算预测的相对可靠性,用以支持机器学习预测在常规插值任务中的可信度。
Aug, 2023