利用连续提示进行医学影像-文本-标签联合对比学习
使用自然组合描述文本,无需人工标注医学图像,通过双向对比目标的方法,使用 ConVIRT 进行预训练的医学图像编码器,将与医学图像配对的文本数据结合起来,极大地提高了数据使用效率。
Oct, 2020
LoVT是一种面向医学图像的局部表征学习方法,结合基于实例的图像报告对比学习和图像区域及报告句子表征的局部对比学习,针对局部任务优化图像预先训练,相比其他常用预训练方法,在18个局部任务的评估框架中表现最佳,因此被认为是优选方法。
Dec, 2021
本研究旨在将大型预训练基础模型的表现能力扩展到特定的医疗概念中,通过研究Stable Diffusion模型的子组件,进而生成医学影像,并通过定量和定性的方法对模型效果进行评估。
Oct, 2022
本文提出了一种用于对医学图像和文本进行训练的的简单而有效的框架——MedCLIP,该框架采用了对抗学习和多模式学习,并引入医学知识语义匹配。实验结果表明,MedCLIP在零样本预测、有监督分类和图像文本检索等方面超过了现有最佳方法。令人惊讶的是,仅使用了20K的预训练数据就超过了使用约200K数据的现有最佳方法。
Oct, 2022
本文介绍了BiomedCLIP在生物医学视觉语言处理方面的应用,该方法针对生物医学VLP进行改进和优化,实验结果显示,BiomedCLIP已成为标准数据集中广泛应用于检索、分类和视觉问答等任务的新的最佳模型,且在某些领域甚至胜过了目前的最新模型。
Mar, 2023
本研究通过双向字幕法对放射学报告进行预训练,与对比性训练方法相比,表明字幕法预训练不仅可以产生具有竞争力的视觉编码器,还可以生成具有临床相关性的报告和针对性的交互性输出。
Oct, 2023
提出了一种利用领域特定的医学知识作为引导信号,在医学视觉表示中将语言信息整合到视觉领域的MLIP框架,通过图像-文本对比学习来改善模型在不同粒度上的泛化性能。实验证实,即使在有限的标注数据情况下,MLIP也胜过最先进的方法,凸显了多模态预训练在推进医学表示学习中的潜力。
Feb, 2024
该研究介绍了一个新的提高医学图像识别性能的方法,利用预训练视觉-语言模型和伪提示生成来实现多标签分类和自动诊断,对比实验证明了其在多标签胸部放射图数据集上的卓越性能。
May, 2024
我们在医学领域中对比了多模式表示学习的综合性基准测试。通过这项研究,我们旨在回答以下研究问题:(i)通用领域表示对医学领域有多大的可转移性?(ii)多模式对比训练是否足够,还是还需要单模态训练的益处?(iii)特征粒度对多模式医学表示学习的有效性有何影响?为了回答这些问题,我们在相同的训练设置下调查了八个对比学习方法,并使用来自四个数据集的280万个图像-文本对进行了训练,并在25个下游任务上进行了评估,包括分类(零样本和线性探测),图像到文本和文本到图像的检索,以及视觉问答。我们的研究结果表明,对于第一个问题,我们的答案是肯定的;对于第二个问题,我们的答案是否定的,而且学习细粒度特征具有益处。最后,我们公开了我们的代码。
Jun, 2024