医学视觉表征的对比学习: 来自成对图像和文本
该研究提出了一种利用患者元数据为医学影像选择正向对样本的方法,使用该方法选择出来的正向对样本可以在自我监督对比学习中提高下游任务的性能。最佳的正向对选择策略将来自同一病人,同一研究的图像从所有的位置进行捕获,使平均AUC增长了14.4%。
Feb, 2021
LoVT是一种面向医学图像的局部表征学习方法,结合基于实例的图像报告对比学习和图像区域及报告句子表征的局部对比学习,针对局部任务优化图像预先训练,相比其他常用预训练方法,在18个局部任务的评估框架中表现最佳,因此被认为是优选方法。
Dec, 2021
本文提出了一种用于对医学图像和文本进行训练的的简单而有效的框架——MedCLIP,该框架采用了对抗学习和多模式学习,并引入医学知识语义匹配。实验结果表明,MedCLIP在零样本预测、有监督分类和图像文本检索等方面超过了现有最佳方法。令人惊讶的是,仅使用了20K的预训练数据就超过了使用约200K数据的现有最佳方法。
Oct, 2022
本文提出了一种基于连续提示的统一图像-文本-标签对比学习框架,从数据统一性,多样性和假阴性样本等方面解决了医学图像对比学习中的的挑战,并在多个下游任务中展现出了出色的表现。
Jul, 2023
基于对比学习的视觉-语言联合预训练已成为一种成功的表示学习策略,本文提出了一个原型表示学习框架,将医学图像和报告之间的全局和局部对齐结合起来,通过重构被屏蔽的图像和报告来在训练阶段交换跨模态信息,实验结果表明该方法在多个数据集和不同数据集规模下优于其他方法。
Jul, 2023
利用合成图像从真实医学报告中生成的医学影像,可以有效地实现医学视觉与语言预训练(VLP),并且在图像分类、语义分割和目标检测等任务上,利用合成数据的性能与真实数据相当甚至超过。
Oct, 2023
本文旨在通过引入多对多局部关系建模来增强数据效率,从而更有效地利用有限的医学图像文本数据。我们提出了医学语言-图像预训练(MLIP)框架,通过补丁-句子匹配的方式更有效地利用图像-文本医学数据,同时引入遮蔽对比学习策略和语义完整性估计以减少图像中的冗余并保留其底层语义。我们的评估结果显示,MLIP在零/少样本分类和少样本分割任务中表现出较大的优势。
Jan, 2024
提出了一种利用领域特定的医学知识作为引导信号,在医学视觉表示中将语言信息整合到视觉领域的MLIP框架,通过图像-文本对比学习来改善模型在不同粒度上的泛化性能。实验证实,即使在有限的标注数据情况下,MLIP也胜过最先进的方法,凸显了多模态预训练在推进医学表示学习中的潜力。
Feb, 2024
通过医疗图片的图像-图对比学习框架,利用从放射学记录中自动提取的结构化报告知识图形,独特地编码了断开的图形组件,通过关系图卷积网络和transformer注意力机制,在对CheXpert数据集进行实验时,在1%线性评估和少样本情况下表现优于已有的图像-文字对比学习方法,并达到与放射科医生相当的性能;通过利用无标签的配对图像和文本,我们的框架展示了利用结构化的临床见解来增强医学图像的对比学习的潜力,这项工作为减少医疗专家的注释需求、提高诊断精度和推进健康病人护理提供了基础。
May, 2024
我们在医学领域中对比了多模式表示学习的综合性基准测试。通过这项研究,我们旨在回答以下研究问题:(i)通用领域表示对医学领域有多大的可转移性?(ii)多模式对比训练是否足够,还是还需要单模态训练的益处?(iii)特征粒度对多模式医学表示学习的有效性有何影响?为了回答这些问题,我们在相同的训练设置下调查了八个对比学习方法,并使用来自四个数据集的280万个图像-文本对进行了训练,并在25个下游任务上进行了评估,包括分类(零样本和线性探测),图像到文本和文本到图像的检索,以及视觉问答。我们的研究结果表明,对于第一个问题,我们的答案是肯定的;对于第二个问题,我们的答案是否定的,而且学习细粒度特征具有益处。最后,我们公开了我们的代码。
Jun, 2024