RAD-DINO: 探索可扩展的医学影像编码器：超越文本监督

Jan, 2024

RAD-DINO: 探索可扩展的医学影像编码器：超越文本监督

RAD-DINO: Exploring Scalable Medical Image Encoders Beyond Text Supervision

Fernando Pérez-García, Harshita Sharma, Sam Bond-Taylor, Kenza Bouzid, Valentina Salvatelli...

TL;DR在计算机视觉和医学图像领域的多模态系统中，语言监督的预训练被证明是从图像中提取语义有意义特征的有价值方法。然而，由于文本包含的信息有限，得到的特征受到了限制。在医学图像中，这一点尤为严重，因为放射科医生的书面结果侧重于特定观察，而相关图像 - 文本数据的稀缺性增加了挑战。本文通过在仅使用单模态医学图像数据进行预训练，引入了 RAD-DINO，一种基于生物医学图像的编码器，其性能在各种基准测试中比最先进的基于生物医学语言的监督模型取得了相似或更好的表现。

Abstract

language-supervised pre-training has proven to be a valuable method for extracting semantically meaningful features from images, serving as a foundational element in multimodal systems within the computer vision and med

language-supervised pre-training biomedical image encoder rad-dino general purpose medical imaging

发现论文，激发创造

通过整体自我监督学习推动面向人体的 AI 在 X 射线分析中的鲁棒性

使用自监督训练的 RayDINO 和小型任务特定适配器达到了最先进的结果，改善了对未见过的人群的泛化能力，同时减轻了偏见，展示了基础模型的真正潜力：多功能性和健壮性。

May, 2024

临床准确且可解释的双向字幕模型

本研究通过双向字幕法对放射学报告进行预训练，与对比性训练方法相比，表明字幕法预训练不仅可以产生具有竞争力的视觉编码器，还可以生成具有临床相关性的报告和针对性的交互性输出。

Oct, 2023

关于医学图像分析的通用视觉基础模型：基于 DINOv2 的放射学基准实验研究

本研究全面评估了基于自学习的 DINOv2 模型在放射学领域的应用，通过超过 100 个实验在不同模态下进行疾病分类和器官分割等任务，发现 DINOv2 在分割任务中表现优越，在疾病分类中具有竞争力的结果。这些发现为优化医学影像的预训练策略和加强 DINOv2 在自然图像与放射图像分析之间的桥梁作用提供了深入的见解。

Dec, 2023

RoentGen: 胸部 X 光图像生成的视觉语言基础模型

本研究提出了一种策略来克服大规模自然 - 医学分布偏移，并使用预先训练的潜在扩散模型在公开可用的胸部 X 射线（CXR）及其对应的放射学（文本）报告语料库上进行调整，评估了生成的高保真 CXR 的图像质量和文本 - 图像对齐的能力，并观察到使用数据增强的方式训练动态成像分类器的证据。

Nov, 2022

大规模放射学数据库上的文本 / 图像交错深度挖掘，用于自动图像解释

提出了一种文本 / 图像深度学习系统，通过融合自然语言处理技术相互作用，在病人扫描图像中生成语义标签，预测辐射学水平中的语义主题并自动生成关键词。

May, 2015

通用影像编码器 DINOv2 用于医学影像配准

利用一种训练免费的图像编码器，本文介绍了一种新的变形图像配准方法 DINO-Reg，并在医学图像配准领域中取得了第一名的成绩。这是将通用视觉基础模型应用于医学图像配准的首次尝试。

Feb, 2024

基于视觉变压器的自监督方法用于胸部 X 光片分类

我们提出了一种自监督方法 DINO-CXR，通过对胸部 X 射线的分类进行自监督预训练，证明了该方法在肺炎和 COVID-19 检测方面的有效性，并在准确性方面胜过了最先进的方法，在 AUC 和 F-1 得分方面取得了可比较的结果，同时少使用了标记数据。

Aug, 2023

利用视觉 - 语言预训练实现医学图像和文本的多模态理解与生成

本文提出了一种名为 MedViLL 的多模态自然语言处理模型，基于 BERT，使用一种新颖的多模态注意力掩码机制，通过在医学领域内的广泛一系列的多模态表现学习任务，包括影像报告分类、影像报告检索、影像问题回答和放射学报告生成，进行了统计和严格的评估，证明了 MedViLL 在各种基线上的优越性能表现，尤其是在三个影像报告数据集（MIMIC-CXR、Open-I 和 VQA-RAD）上的实现。

May, 2021

DeViDe：基于分面的医学知识，以提升医学视觉 - 语言预训练

在胸片 X 光的视觉语言预训练方面取得了显著进展，主要通过利用配对的放射照片和放射学报告。为了解决医学知识编码的挑战，我们提出了一种新颖的基于 Transformer 的方法 DeViDe，它利用来自开放网络的放射照片描述。DeViDe 将具体定义和放射学报告与开放网络中疾病的通用视觉特征相结合，提供了对知识的整体快照。在零样本设置下，DeViDe 在外部数据集上表现出与全监督模型相当的性能，并在三个大规模数据集上达到了最先进的结果。另外，将 DeViDe 在四个下游任务和六个分割任务上微调，展示了其在不同分布的数据上优越的性能。

Apr, 2024

利用文本语义改进生物医学视觉 - 语言处理

本文介绍了一种基于语义模型的对比学习方法，该方法在生物医学领域的文本 - 语言建模中取得了目前最先进的结果，利用该方法可以更好地理解医学图像和报告。

Apr, 2022