基础方舟：积累和复用知识以获得卓越和稳健的性能

Oct, 2023

基础方舟：积累和复用知识以获得卓越和稳健的性能

Foundation Ark: Accruing and Reusing Knowledge for Superior and Robust Performance

DongAo Ma, Jiaxuan Pang, Michael B. Gotway, Jianming Liang

TL;DR通过聚合多个公共数据集并从专家注释中积累知识，我们开发了 Ark 框架，在医学成像领域实现了优越且稳健的性能以及超越专有模型的表现，这拥有重要影响力，以促进开放科学并推动深度学习民主化。

Abstract

deep learning nowadays offers expert-level and sometimes even super-expert-level performance, but achieving such performance demands massive annotated data for training (e.g., Google's proprietary CXR Foundation Model (CXR-FM) was trained on 821,544 labeled and mostly private chest X-r

deep learning medical imaging dataset aggregation expert annotations open science

发现论文，激发创造

胸部 X 光基础模型中的偏倚风险

该研究分析了一个公开可访问的胸部 X 光基础模型，发现模型存在性别和种族等保护特征的嵌入，这可能导致临床决策的性能退化和不公平性，因此，建议对基础模型进行充分的偏见和子组织性能分析。

Sep, 2022

临床推理胸部影像数据集

本研究提供了基于场景图的 Chest ImaGenome 数据集，利用自然语言处理和基于图集的边界框检测构建了局部标注，并通过放射学家构建的 X 线诊断本体论将每个 CXR 的注释连接为以解剖学为中心的场景图。

Jul, 2021

CheXagent: 朝向胸部 X 射线解读的基础模型

通过引入 CheXinstruct 数据集、设计临床大规模语言模型、图像编码器和网络以及引入 CheXbench 基准来解决医疗影像领域中胸部 X 射线图像自动解释的挑战，并证明 CheXagent 在这些任务中优于先前开发的通用和医学领域基础模型。

Jan, 2024

手术聚合：用于协调具有不同任务的分布式数据集的联邦学习框架

通过手术聚合方法，将来自不同疾病标签的分布式数据集的知识聚合和协调成一个 ' 全局 ' 深度学习模型，该研究表明手术聚合具有开发临床有用的深度学习模型的潜力，是从实验室到床边迈进的一步。

Jan, 2023

RoentGen: 胸部 X 光图像生成的视觉语言基础模型

本研究提出了一种策略来克服大规模自然 - 医学分布偏移，并使用预先训练的潜在扩散模型在公开可用的胸部 X 射线（CXR）及其对应的放射学（文本）报告语料库上进行调整，评估了生成的高保真 CXR 的图像质量和文本 - 图像对齐的能力，并观察到使用数据增强的方式训练动态成像分类器的证据。

Nov, 2022

通过整体自我监督学习推动面向人体的 AI 在 X 射线分析中的鲁棒性

使用自监督训练的 RayDINO 和小型任务特定适配器达到了最先进的结果，改善了对未见过的人群的泛化能力，同时减轻了偏见，展示了基础模型的真正潜力：多功能性和健壮性。

May, 2024

SynthEnsemble：基于 CNN、视觉 Transformer 和混合模型的多标签胸部 X 光分类的融合

通过深度学习技术，我们使用多种预训练的卷积神经网络 (CNN)、Transformer、混合 (CNN+Transformer) 模型和经典模型，在 “ChestX-ray14” 数据集上进行实验。最佳的单一模型是 CoAtNet，其在接收器工作特性曲线下的面积（AUROC）为 84.2%。通过将所有经过训练的模型的预测组合，使用加权平均集成方法，其中每个模型的权重是通过差分进化确定的，我们进一步提高了 AUROC 至 85.4%，在该领域超越了其他最先进的方法。我们的研究结果表明，深度学习技术尤其是集成深度学习，有潜力提高从胸部 X 射线图像中自动诊断胸部疾病的准确性。

Nov, 2023

面向放射学的通用基础模型

本研究旨在构建放射学基础模型（RadFM），通过数据、模型设计和评估的多方面视角构建基础模型。我们的贡献包括：（一）构建一个大规模的医疗多模态数据集 MedMD，包含 1600 万份 2D 和 3D 医学扫描，这是首个包含 3D 医学扫描的多模态数据集。（二）提出了一种架构，实现可视化条件生成预训练，允许将文本输入与 2D 或 3D 医学扫描相结合，以生成多样化的放射学任务响应。模型首先在 MedMD 上进行预训练，然后在 RadMD 上进行领域特定的微调，RadMD 是 MedMD 的一种经过放射学清理的版本，包含 300 万份放射学视觉语言对。（三）我们提出了一个全面评估基础模型在处理实际临床问题方面能力的新评估基准，包括五个任务。实验结果证实，RadFM 明显优于现有的多模态基础模型。为促进该领域的进一步研究和发展，我们将公开提供代码、数据和模型检查点。

Aug, 2023

基于基础模型的放射学内容医学图像检索应用

通过基于内容的图像检索（CBIR）系统中使用视觉基础模型作为功能强大且多用途的成品特征提取器，我们在包含 160 种病理学的 4 种模式的 160 万个二维放射学图像的综合数据集上进行基准测试，从而确定弱监督模型在性能上超越专门化模型，达到了 0.594 的 P@1，而且无需精调。研究还探讨了在获取病理学和解剖结构方面的挑战，表明准确获取病理学特征更加困难。尽管存在这些挑战，我们的研究强调了基础模型在放射学的 CBIR 中的巨大潜力，提出了向不需要特定调整的多用途医学图像检索系统的转变。

Mar, 2024

高清 X 射线图像的预训练实验研究

本文提出了首个高清（1280×1280）X 射线预训练视觉模型，采用了大规模数据集和自动编码器框架，引入了一种新颖的上下文感知遮蔽策略，验证了模型在 X 射线报告生成和疾病识别等下游任务上的有效性。

Apr, 2024