医学影像机器学习中的潜在分层引起临床上有意义的失败

Sep, 2019

医学影像机器学习中的潜在分层引起临床上有意义的失败

Hidden Stratification Causes Clinically Meaningful Failures in Machine Learning for Medical Imaging

Luke Oakden-Rayner, Jared Dunnmon, Gustavo Carneiro, Christopher Ré

TL;DR本文研究了机器学习在医学影像分析方面出现的隐性分层现象，探讨了多种方法测量和描述该现象以及其对临床效果的影响，建议评估隐性分层现象应是医学影像中机器学习部署的重要组成部分。

Abstract

machine learning models for medical image analysis often suffer from poor performance on important subsets of a population that are not identified during training or testing. For example, overall performance of a

发现论文，激发创造

医学成像中因果关系的重要性

本文讨论因果语言如何对医学影像机器学习中的主要挑战（数据稀缺性和数据不匹配）进行分析，为数据收集，注释程序和学习策略的决策提供更透明的解释。研究发现，在医学影像数据中，考虑因果关系对于机器学习的安全性、法规性和责任报告至关重要。

Dec, 2019

深度神经网络分类器在乳腺癌筛查中的鲁棒性理解

深度神经网络可用于乳腺癌筛查，但在应用时需要考虑输入扰动的鲁棒性，本文探究了针对自然图像的文献和针对乳腺X线摄影术图像的差异，通过测量受四种常见扰动影响的乳腺X线摄影术图像分类器的灵敏度，得出结论认为已有文献可供参考；本文同时提出了低通滤波的问题，这可能会影响乳腺癌的预测，因此，对于乳腺X线摄影术图像分类器来说，去除低通滤波对于诊断有利。

Mar, 2020

人工智能模型乳腺X线筛查的性能差距 -- 迈向公平和可解释的模型

通过分析筛选乳腺X线检查中失败的人群，使用深度学习模型识别正常和异常组织贴片，并评估人口子组的分类偏差，得出哪些影像特征是深度学习模型性能较差的原因。

May, 2023

改进医学影像分析公平性：消除校准偏见，无需固定属性分组

为解决医学图像分析中校准偏差的问题，提出了一种基于聚类-焦点法的新方法Cluster-Focal，无需在训练期间考虑亚组属性，能够管理最差亚组的校准误差，同时保持预测性能，并超越了最近的基线。

Jul, 2023

非公平的午餐：医学影像机器学习数据集偏差的因果观点

机器学习方法在临床决策中的重要性日益提升，因此解决公平性问题变得越来越迫切。尽管已经有很多工作致力于检测和改善算法偏见，但目前的方法存在缺陷和潜在危害。我们提出因果角度来研究算法偏见，强调数据集偏见的不同来源可能看起来相似，但需要采用截然不同的缓解策略。我们从盛行度、呈现度和注释差异三个因果偏见机制的角度进行分析。我们提供了一个实用的三步骤框架，用于思考医学影像公平性，支持开发安全和公正的AI预测模型。

Jul, 2023

医学图像分类中的鲁棒性压力测试

通过深度神经网络对基于图像的疾病检测进行研究并进行临床验证，通过应力测试评估模型的稳健性和亚组性能差异，发现某些模型能够产生更稳健和公正的性能，并且预训练特征对下游稳健性起重要作用，强调应力测试在图像疾病检测模型的临床验证中应成为标准实践。

Aug, 2023

医学影像机器学习可解释性框架

医疗图像中机器学习模型的可解释性是一项重要的研究方向，本文通过对现实任务和目标进行推理，提出了可解释性的四个核心要素：定位，视觉识别能力，物理归属和透明度。通过形式化医疗图像领域的可解释性需求和具体目标，本研究为模型设计者和实践者提供了实用的教学资料，迫使医疗图像领域的模型开发者更深入地思考可解释性的实现，并提出了可解释性研究的未来方向。

Oct, 2023

医学图像分析中的不确定性量化综述：概率和非概率方法

综合机器学习医疗模型在临床实践中的应用仍然不理想，缺乏证据证明其可靠性进而限制了其广泛应用。本文综述了用于各种医学图像任务中开发的机器学习模型的不确定性量化方法，包括概率和非概率方法，以全面调研与不确定性量化相关的研究。该综述对医学图像的分析和医学应用以及相应的不确定性评估协议进行了讨论，并强调了未来的研究方向。整体上，本综述旨在帮助临床和技术领域的研究人员快速而深入地了解医学图像分析机器学习模型中的不确定性量化研究。

Oct, 2023

数据源的重要性：医学影像模型的鲁棒性受数据源影响

调查传统学习与样本数据是否能够解释医学图像分类任务中的性能提升，结果显示经 ImageNet 预训练与经 RadImageNet 预训练的模型在分类性能上相似，但 ImageNet 更容易过拟合。建议使用 ImageNet 预训练模型的研究人员进行类似实验以重新评估模型的稳健性。

Mar, 2024

消除偏见：利用切片发现方法解释医学图像分析性能差距

使用Slice Discovery Methods (SDMs)鉴别机器学习模型中的性能差异及其与患者群体之间的相互作用，并提出性别差异导致观察到的分类性能差距的解释。

Jun, 2024