利用合成数据进行医学视觉 - 语言预训练:绕开真实图像的需求
医疗视觉语言预训练透过自监督学习的方式利用图像和文本数据集,为医学领域稀缺的标注数据提供了解决方案。该文回顾了医疗视觉语言预训练的不同目标、架构、评估任务和数据集,并探讨了现有挑战及未来发展方向。
Dec, 2023
通过提出一个高质量的医学放射照片数据集 (RadioGraphy Captions),本文对医学领域的视觉 - 语言 (VL) 预训练 (VLP) 进行了深入的实验分析,得出了一些指导未来医学 VL 任务研究和新的强基准的关键结论。
Jun, 2023
本文提出了一种系统和有效的方法来增强医学视觉和语言预训练 (Med-VLP),通过结构化医学领域专家知识从三个方面做到了这一点,并构建了一个医学视觉和语言基准来评估此方法的有效性。
Sep, 2022
该研究论文提出了基于医学图像文本匹配的预训练方法,利用三元组信息和医学专有知识进行医疗分类和定位,取得了比其他方法更好的分类结果。
Jan, 2023
本研究提出了一种 3D 医学图像的方法 —— 生成式文本引导 3D 视觉语言预训练。研究在 Computed Tomography (CT)、Magnetic Resonance Imaging (MRI) 和电子显微镜 (EM) 图像数据上进行了验证,结果表明该方法在医学图像分割任务中的效果优异。
Jun, 2023
本文提出了 MedBLIP,这是一个轻量级的 CAD 系统,利用预训练的图像编码器和语言模型,结合维度转换,对医学图像扫描和电子医疗记录中的文本描述进行预训练,最终在 Alzheimer's 病例分类和医学 VQA 领域表现出 SOTA 性能。
May, 2023
借助统一的语义空间,UniMedI 提出了一种统一医学图像预训练框架,能够有效地为不同模态的医学图像创建统一的表示,并通过改进对 2D 和 3D 图像的分析和解释来提高一致性和性能。
Nov, 2023
我们设计了一种 Pairwise Augmentation (PairAug) 方法,旨在同时增强医学图像和文本数据,通过 Inter-patient Augmentation (InterAug) 分支生成使用合成的放射学报告的放射学图像,并通过 Intra-patient Augmentation (IntraAug) 分支使用新生成的报告来操作图像,从而在各种下游任务中显着优于单独扩展图像或文本数据以及先进的医学 VLP 基线。
Apr, 2024
我们提出了一种利用大语言模型(LLM)和图像生成模型的优点来创建合成图像 - 文本对的新方法,以用于视觉语言模型(VLM)的高效训练。通过预训练一个文本到图像模型来合成由 LLM 生成的图像嵌入,我们的方法能够用合成数据训练出仅需使用人工标注数据一小部分的 VLM,并在图像字幕任务中展现出相当的性能。此研究为生成大规模、可定制的图像数据集引入了一项有前景的技术,从而提升了 VLM 性能,拓展了其在各个领域中的适用性,并改善了数据效率和资源利用。
Mar, 2024
LoVT 是一种面向医学图像的局部表征学习方法,结合基于实例的图像报告对比学习和图像区域及报告句子表征的局部对比学习,针对局部任务优化图像预先训练,相比其他常用预训练方法,在 18 个局部任务的评估框架中表现最佳,因此被认为是优选方法。
Dec, 2021