利用合成数据进行医学视觉 - 语言预训练：绕开真实图像的需求

Oct, 2023

利用合成数据进行医学视觉 - 语言预训练：绕开真实图像的需求

Utilizing Synthetic Data for Medical Vision-Language Pre-training: Bypassing the Need for Real Images

Che Liu, Anand Shah, Wenjia Bai, Rossella Arcucci

TL;DR利用合成图像从真实医学报告中生成的医学影像，可以有效地实现医学视觉与语言预训练 (VLP)，并且在图像分类、语义分割和目标检测等任务上，利用合成数据的性能与真实数据相当甚至超过。

Abstract

medical vision-language pre-training (vlp) learns representations jointly from medical images and paired radiology reports. It typically requires large-scale paired →

medical vision-language pre-training vlp synthetic images medical reports image-text datasets

发现论文，激发创造

医疗视觉语言预训练：综述

医疗视觉语言预训练透过自监督学习的方式利用图像和文本数据集，为医学领域稀缺的标注数据提供了解决方案。该文回顾了医疗视觉语言预训练的不同目标、架构、评估任务和数据集，并探讨了现有挑战及未来发展方向。

Dec, 2023

医学视觉语言理解和生成的多模型预训练：新基准的实证研究

通过提出一个高质量的医学放射照片数据集 (RadioGraphy Captions)，本文对医学领域的视觉 - 语言 (VL) 预训练 (VLP) 进行了深入的实验分析，得出了一些指导未来医学 VL 任务研究和新的强基准的关键结论。

Jun, 2023

对齐、推理和学习：利用知识增强医疗视觉语言预训练

本文提出了一种系统和有效的方法来增强医学视觉和语言预训练 (Med-VLP)，通过结构化医学领域专家知识从三个方面做到了这一点，并构建了一个医学视觉和语言基准来评估此方法的有效性。

Sep, 2022

MedKLIP: 医学知识增强的语言 - 图像预训练

该研究论文提出了基于医学图像文本匹配的预训练方法，利用三元组信息和医学专有知识进行医疗分类和定位，取得了比其他方法更好的分类结果。

Jan, 2023

基于生成式文本引导的三维视觉语言预训练，用于统一医学图像分割

本研究提出了一种 3D 医学图像的方法 —— 生成式文本引导 3D 视觉语言预训练。研究在 Computed Tomography (CT)、Magnetic Resonance Imaging (MRI) 和电子显微镜 (EM) 图像数据上进行了验证，结果表明该方法在医学图像分割任务中的效果优异。

Jun, 2023

MedBLIP: 从 3D 医疗影像和文本数据进行语言 - 图像预训练的自举方法

本文提出了 MedBLIP，这是一个轻量级的 CAD 系统，利用预训练的图像编码器和语言模型，结合维度转换，对医学图像扫描和电子医疗记录中的文本描述进行预训练，最终在 Alzheimer's 病例分类和医学 VQA 领域表现出 SOTA 性能。

May, 2023

语言引导下统一的医学图像预训练在共同语义空间中

借助统一的语义空间，UniMedI 提出了一种统一医学图像预训练框架，能够有效地为不同模态的医学图像创建统一的表示，并通过改进对 2D 和 3D 图像的分析和解释来提高一致性和性能。

Nov, 2023

PairAug：增强图像 - 文本配对在放射学中的应用

我们设计了一种 Pairwise Augmentation (PairAug) 方法，旨在同时增强医学图像和文本数据，通过 Inter-patient Augmentation (InterAug) 分支生成使用合成的放射学报告的放射学图像，并通过 Intra-patient Augmentation (IntraAug) 分支使用新生成的报告来操作图像，从而在各种下游任务中显着优于单独扩展图像或文本数据以及先进的医学 VLP 基线。

Apr, 2024

Synth$^2$: 用合成标题和图像嵌入提升视觉 - 语言模型

我们提出了一种利用大语言模型（LLM）和图像生成模型的优点来创建合成图像 - 文本对的新方法，以用于视觉语言模型（VLM）的高效训练。通过预训练一个文本到图像模型来合成由 LLM 生成的图像嵌入，我们的方法能够用合成数据训练出仅需使用人工标注数据一小部分的 VLM，并在图像字幕任务中展现出相当的性能。此研究为生成大规模、可定制的图像数据集引入了一项有前景的技术，从而提升了 VLM 性能，拓展了其在各个领域中的适用性，并改善了数据效率和资源利用。

Mar, 2024

医学影像和报告的局部表示联合学习

LoVT 是一种面向医学图像的局部表征学习方法，结合基于实例的图像报告对比学习和图像区域及报告句子表征的局部对比学习，针对局部任务优化图像预先训练，相比其他常用预训练方法，在 18 个局部任务的评估框架中表现最佳，因此被认为是优选方法。

Dec, 2021