冻结骨干网络：一种参数高效的对比学习方法用于稳健的医疗视觉 - 语言预训练

Jan, 2024

冻结骨干网络：一种参数高效的对比学习方法用于稳健的医疗视觉 - 语言预训练

Freeze the backbones: A Parameter-Efficient Contrastive Approach to Robust Medical Vision-Language Pre-training

Jiuming Qin, Che Liu, Sibo Cheng, Yike Guo, Rossella Arcucci

TL;DR现代医疗常常使用放射影像和文字报告进行诊断，鼓励使用大型预训练模型进行视觉 - 语言自监督学习 (VL-SSL) 以学习多功能的医学视觉表示。然而，大部分现有的 VL-SSL 框架都是端到端训练的，计算成本高，并且可能丢失预训练编码器中嵌入的重要先验信息。为了解决这两个问题，我们引入了适用于任意骨干网络的 Adaptor 框架，通过保持预训练的图像和文本编码器的冻结状态，并采用轻量级的 Adaptor 模块进行跨模态学习来保留医学知识。在三个数据集上进行的医学图像分类和分割任务实验表明，与当前的预训练方法相比，我们的框架在保持可训练参数减少 90% 以上的同时，具有竞争性的性能。值得注意的是，仅使用 1% 的数据进行微调时，Adaptor 在医学图像分割方面胜过了针对完整数据集训练的几种基于 Transformer 的方法。

Abstract

Modern healthcare often utilises radiographic images alongside textual reports for diagnostics, encouraging the use of Vision-Language Self-Supervised Learning (VL-SSL) with large pre-trained models to learn vers

healthcare radiographic images vision-language self-supervised learning adaptor framework medical image segmentation

发现论文，激发创造

深度学习表示的自监督视觉语言对骨 X 射线分析的对齐

该研究提出了利用骨骼 X 射线与法语报告的视觉语言预训练来解决骨 X 射线影像学的下游任务。提出了一个实用的处理流程来对法国医学报告进行匿名化和处理。预训练包括来自深度模型编码器的视觉和文本嵌入空间的自我监督对齐。结果的图像编码器用于处理各种下游任务，包括骨关节炎的量化、儿童手腕骨龄的估计、骨折和异常检测。与需要大量人工专家注释的替代方法相比，我们的方法在下游任务上表现出竞争性能。我们的工作是第一项将法国报告整合到用于骨 X 射线表示的嵌入空间的研究，利用了医院中大量的成对图像和报告数据，以在特定语境中依赖通用视觉语言深度模型，为更广泛的医疗应用部署视觉模型作出贡献。

May, 2024

将预训练的视觉语言基础模型应用于医学图像领域

本研究旨在将大型预训练基础模型的表现能力扩展到特定的医疗概念中，通过研究 Stable Diffusion 模型的子组件，进而生成医学影像，并通过定量和定性的方法对模型效果进行评估。

Oct, 2022

T3D：通过视觉 - 语言预训练实现三维医学图像理解

T3D 是为高分辨率 3D 医学图像设计的首个 VLP 框架，通过两个文本感知的预训练任务，即文本感知的对比学习和文本感知的图像恢复，从高分辨率的 3D 医学图像中学习 3D 视觉表示，整合临床知识，拥有在器官和肿瘤分割以及疾病分类等任务中显著优于现有 vSSL 方法的潜力。

Dec, 2023

对齐、推理和学习：利用知识增强医疗视觉语言预训练

本文提出了一种系统和有效的方法来增强医学视觉和语言预训练 (Med-VLP)，通过结构化医学领域专家知识从三个方面做到了这一点，并构建了一个医学视觉和语言基准来评估此方法的有效性。

Sep, 2022

MedBLIP: 从 3D 医疗影像和文本数据进行语言 - 图像预训练的自举方法

本文提出了 MedBLIP，这是一个轻量级的 CAD 系统，利用预训练的图像编码器和语言模型，结合维度转换，对医学图像扫描和电子医疗记录中的文本描述进行预训练，最终在 Alzheimer's 病例分类和医学 VQA 领域表现出 SOTA 性能。

May, 2023

时间、内存和参数高效的视觉适应

我们提出了一个不需要反向传播梯度的适应方法，该方法在参数、训练时间和内存使用方面都非常高效，并且在 VTAB 基准测试中实现了极好的准确性 - 参数折衷，并展示了在视频分类等计算密集型任务中对于训练效率和可扩展性上的优越性。

Feb, 2024

MoVL: 探索预训练模型在医学图像任务中的领域自适应应用的融合策略

对于医学图像分类，本研究引入了视觉提示技术（VP）以填补输入医学图像与常规预训练视觉模型之间的差距，并通过设计包含分类损失和差异损失的联合学习损失函数来进行联合训练，命名为 MoVL（混合视觉提示和线性探测）。实验证明，MoVL 具有实现完全微调准确率的潜力，并且在医学数据集上优于常规微调模型。

May, 2024

医学视觉语言理解和生成的多模型预训练：新基准的实证研究

通过提出一个高质量的医学放射照片数据集 (RadioGraphy Captions)，本文对医学领域的视觉 - 语言 (VL) 预训练 (VLP) 进行了深入的实验分析，得出了一些指导未来医学 VL 任务研究和新的强基准的关键结论。

Jun, 2023

基于知识增强的医学 CXR 可视化语言预训练模型

我们提出了一种基于 Transformer 的基于地面知识增强模块的医学视觉 - 语言预训练（GK-MVLP）框架，通过细粒度对应医学知识的解剖区域级视觉特征和文本特征，将医学知识地面化到适当的解剖区域，优化胸部 X 光图像和放射学报告的对齐，并在下游任务上展现出与或超过现有技术的竞争力，包括胸部 X 光疾病分类、疾病定位、报告生成和医学视觉问答。结果显示了引入地面化机制消除偏见并改善胸部 X 光图像和放射学报告的对齐的优势。

Apr, 2024

VLSM-Adapter: 用轻量级模块高效地微调视觉语言分割

基于 transformer 编码器，我们引入了一种称为 VLSM-Adapter 的新型适配器，它可以使用预训练的视听分割模型进行微调，我们的实验证明，仅有 300 万可训练参数的 VLSM-Adapter 优于最先进的技术，并且与上限末端微调具有可比性。

May, 2024