CXR-CLIP：大规模胸部 X 光照片语言 - 图像预训练

Oct, 2023

CXR-CLIP：大规模胸部 X 光照片语言 - 图像预训练

CXR-CLIP: Toward Large Scale Chest X-ray Language-Image Pre-training

Kihyun You, Jawook Gu, Jiyeon Ham, Beomhee Park, Jiho Kim...

TL;DR本文研究了利用大规模图像 - 文本配对数据集进行视觉语言预训练模型的发展，解决医疗领域中缺乏数据的问题，并通过扩展图像 - 标签对为图像 - 文本对，利用多个图像和多个部分的放射学报告来提高模型性能。同时设计了两个对比损失，ICL 和 TCL，来学习医学图像和报告的研究级特征。我们的模型在相同条件下优于现有的最先进模型。此外，扩大数据集能够提高我们预训练模型的分类性能，尽管在检索性能方面有所牺牲。代码可在此网址获得。

Abstract

A large-scale image-text pair dataset has greatly contributed to the development of vision-language pre-training (VLP) models, which enable zero-shot or few-shot classification without costly annotation. However,

vision-language pre-training large-scale image-text pair dataset medical domain chest x-ray contrastive losses

发现论文，激发创造

生物医学视觉语言处理的大规模领域特定预训练

本文介绍了 BiomedCLIP 在生物医学视觉语言处理方面的应用，该方法针对生物医学 VLP 进行改进和优化，实验结果显示，BiomedCLIP 已成为标准数据集中广泛应用于检索、分类和视觉问答等任务的新的最佳模型，且在某些领域甚至胜过了目前的最新模型。

Mar, 2023

CXR-LLaVA：用于解读胸部 X 光图像的多模式大型语言模型

利用大型语言模型 (LLM) 开发了多模态大型语言模型来解释胸部 X 射线图像，并研究了提示工程和模型参数对其效果的影响。通过对数据集进行预训练和微调，该模型在胸部 X 射线图像解释中显示了很好的潜力。

Oct, 2023

使用领域预训练语言模型提高低患病率胸部病变的零样本检测

本文探讨利用特定领域预训练模型（如 CXR-BERT、BlueBERT 和 ClinicalBERT）替换 CLIP 的 BERT 权重以提高 CLIP 的性能，并针对低流行病的疾病检测评估了具有特定领域预训练的零样本分类模型，虽然替换权重降低了常见病的模型表现，但我们发现预训练文本确实对低流行病疾病具有更好的性能，鼓励未来使用多种不同的训练语言模型的集成模型以实现最大性能。

Jun, 2023

MedKLIP: 医学知识增强的语言 - 图像预训练

该研究论文提出了基于医学图像文本匹配的预训练方法，利用三元组信息和医学专有知识进行医疗分类和定位，取得了比其他方法更好的分类结果。

Jan, 2023

利用连续提示进行医学影像 - 文本 - 标签联合对比学习

本文提出了一种基于连续提示的统一图像 - 文本 - 标签对比学习框架，从数据统一性，多样性和假阴性样本等方面解决了医学图像对比学习中的的挑战，并在多个下游任务中展现出了出色的表现。

Jul, 2023

RoentGen: 胸部 X 光图像生成的视觉语言基础模型

本研究提出了一种策略来克服大规模自然 - 医学分布偏移，并使用预先训练的潜在扩散模型在公开可用的胸部 X 射线（CXR）及其对应的放射学（文本）报告语料库上进行调整，评估了生成的高保真 CXR 的图像质量和文本 - 图像对齐的能力，并观察到使用数据增强的方式训练动态成像分类器的证据。

Nov, 2022

RadCLIP：通过对比语言 - 图像预训练增强放射学图像分析

人工智能与放射学的整合标志着医学诊断的一个转型时代，采用视觉基础模型改进放射学图像分析，引入 RadCLIP 用于优化放射学图像分析，包括创新的三维切片池化机制和多样的放射学图像 - 文本数据集，评估结果显示 RadCLIP 可以有效对齐放射学图像与对应的文本标注，并提供强大的视觉支持。

Mar, 2024

XrayGPT: 医学视觉语言模型用于胸部 X 光摘要

本研究介绍了 XrayGPT，一种新型的会话式医疗视觉 - 语言模型，可以分析并回答关于胸部 X 光片的开放式问题。通过将医疗视觉编码器 MedClip 与微调的大型语言模型 Vicuna 进行对齐，并使用简单的线性变换，我们的模型能够具备出色的视觉会话能力，从而深入理解放射学和医学领域的知识。

Jun, 2023

基于知识增强的医学 CXR 可视化语言预训练模型

我们提出了一种基于 Transformer 的基于地面知识增强模块的医学视觉 - 语言预训练（GK-MVLP）框架，通过细粒度对应医学知识的解剖区域级视觉特征和文本特征，将医学知识地面化到适当的解剖区域，优化胸部 X 光图像和放射学报告的对齐，并在下游任务上展现出与或超过现有技术的竞争力，包括胸部 X 光疾病分类、疾病定位、报告生成和医学视觉问答。结果显示了引入地面化机制消除偏见并改善胸部 X 光图像和放射学报告的对齐的优势。

Apr, 2024

利用胸部 CT 扫描和放射学报告的基础模型进行监督级零样本异常检测

介绍了 CT-RATE 作为第一个将图像与文本报告配对的 3D 医学图像数据集，以及基于该数据集开发的 CT-CLIP 模型在多异常检测和案例检索方面的优越性，从而提升了医疗人工智能的发展和医疗创新。

Mar, 2024