BenchMD:面向医学影像和传感器的模态不可知学习基准测试
综合评估医疗机器学习的基准,提出一种基于医学信息志(MIMIC-III)的基准,让我们可以直接比较预测性能,并评估生存率、住院时间、表型和患者恶化任务的进展。我们发现,在这些任务上,尽管社区参与度高,但在过去的三年里,几乎没有真正显著的进展。通过我们的元分析,我们发现,深度递归模型的性能仅在某些任务上优于逻辑回归。最后综合这些结果,提出未来医学机器学习基准所需的理想特性。
Oct, 2020
通过对比自然图像与医学图像,本论文通过大规模评估了不同图像预训练模型在医学图像分析领域的可迁移性,提出了将自然图像模型迁移到医学图像中的实用方法,并发现新的关键性能:针对医学分割任务fine-grained数据预训练模型具有独特的局部特征表示,自我监督的ImageNet模型比有监督的ImageNet更有效地学习整体特征,连续预训练可以缩小自然图像与医学图像领域之间的跨度,有望引导深度学习在医学图像领域的未来研究。
Aug, 2021
通过深入文献和在线资源的系统性研究,我们编制并发布了一个全面的与临床和生物医学自然语言处理(NLP)广泛领域相关的数据集和基准目录,对450个NLP数据集进行了手动系统化和注释处理,并与跨医疗应用的相关任务进行了比较,结果显示,当前可用的人工智能基准测试不同于希望在临床环境中进行人工智能自动化的任务,因此需要创建新的基准测试以填补这些差距。
Jan, 2022
本研究提出并评估了一种综合人工智能在医学领域的框架(HAIM),以促进利用多模态输入实现人工智能系统的生成和测试, 该框架可在医疗保健环境中进行研究和部署, 并通过使用 Shapley值量化每个模态和数据源的贡献,展示了多模态输入在不同医疗任务中的必要性。
Feb, 2022
医疗中存在多模态的数据,需要基于多模态的数据编码、整合和解释的通用生物医学人工智能系统可以应用于从科学发现到医疗传递等多方面。为了开发这些模型,首先我们整理出一个新的多模态生物医学基准数据集,其中包括14个多样化的任务。然后我们引入了Med-PaLM M,一个大型多模态生成模型,可以灵活地编码和解释临床语言、影像学和基因组学等生物医学数据,其在所有基准任务上的性能优于专家模型,并具备了零样本泛化、任务间正向迁移学习和零样本医学推理等特点。我们还对模型生成的胸部X射线报告进行了边际排名,默认情况下医生与Med-PaLM M报告相比在40.50%的情况下更青睐后者,这表明其具备潜在的临床效用。该研究为通用生物医学人工智能系统的开发提供了一个里程碑。
Jul, 2023
我们的研究论文针对数据有效学习在医学领域的研究空白,引入了一种全面的基准,用于评估医学领域中的数据有效学习。该基准包括来自31个医疗中心的数百万数据样本的数据集(DataDEL),用于对比的基线方法(MedDEL),以及客观衡量数据有效学习性能的新评估指标(NormDEL)。我们广泛的实验结果表明,基线方法MedDEL仅使用5%的数据就可以达到与原始大数据集相当的性能。建立这样一个开放的数据有效学习基准对医学人工智能研究社区至关重要,因为它促进了高效数据利用、推动协作突破和发展成本效益高、可扩展且有影响力的医疗解决方案。
Jan, 2024
该研究提供了一个全面的基准测试,用于多样化评估医学图像分类的常见卷积神经网络和Transformer-based模型,并发现计算效率高的训练方案和现代基础模型在减少昂贵的端到端训练和资源精细的方法之间具有潜力。此外,研究结果表明,较高分辨率未必在一定阈值之上始终提高性能,提倡在原型阶段尤其使用较低分辨率以加快处理速度。同时,该研究也确认了卷积模型与ViT-based模型的竞争力,强调了不同模型架构的内在能力的重要性。希望该研究的标准化评估框架能够提高MedMNIST+数据集以及未来研究的透明度、可复现性和可比性。
Apr, 2024
我们创建并开源了基于MedMNIST+收藏的12个数据集和9种成像模式的基准数据集MedMNIST-C,模拟了不同严重程度的任务和模式特定图像损坏以全面评估已建立算法对真实世界工件和分布偏移的鲁棒性,并提供定量证据表明我们简单易用的人工损坏方法可用于提高模型的鲁棒性。与传统的通用增强策略不同,我们的方法利用领域知识,在与广泛采用的方法相比时表现出更高的鲁棒性。通过引入MedMNIST-C并开源相应的库以实现有针对性的数据增强,我们为医学成像领域越来越具有挑战的鲁棒方法的发展做出贡献。代码可在此https URL github.com/francescodisalvo05/medmnistc-api找到。
Jun, 2024
本研究解决了现有医学视觉语言预训练(MedVLP)方法在数据集、预处理和微调实施方面缺乏统一标准的问题。提出的BenchX框架通过提供全面的数据集和标准化的基准测试,使得不同MedVLP方法之间能够进行直接比较和系统分析。研究发现,一些早期的MedVLP方法在BenchX下的性能可以提升,超越较新的方法,提示了对先前研究结论的重新审视。
Oct, 2024
本研究针对标准基准测试在医学分割领域的问题展开,提出了Touchstone基准,以解决测试集规模小、指标过于简单等不足之处。研究结果表明,新的大规模基准能够更有效地评估AI算法在各种真实世界场景中的表现,从而推动医学领域AI算法的创新发展。
Nov, 2024