PRIOR:从医学影像和报告中联合学习的原型表示
LoVT 是一种面向医学图像的局部表征学习方法,结合基于实例的图像报告对比学习和图像区域及报告句子表征的局部对比学习,针对局部任务优化图像预先训练,相比其他常用预训练方法,在 18 个局部任务的评估框架中表现最佳,因此被认为是优选方法。
Dec, 2021
我们在医学领域中对比了多模式表示学习的综合性基准测试。通过这项研究,我们旨在回答以下研究问题:(i)通用领域表示对医学领域有多大的可转移性?(ii)多模式对比训练是否足够,还是还需要单模态训练的益处?(iii)特征粒度对多模式医学表示学习的有效性有何影响?为了回答这些问题,我们在相同的训练设置下调查了八个对比学习方法,并使用来自四个数据集的 280 万个图像 - 文本对进行了训练,并在 25 个下游任务上进行了评估,包括分类(零样本和线性探测),图像到文本和文本到图像的检索,以及视觉问答。我们的研究结果表明,对于第一个问题,我们的答案是肯定的;对于第二个问题,我们的答案是否定的,而且学习细粒度特征具有益处。最后,我们公开了我们的代码。
Jun, 2024
该研究旨在探索多模态联合嵌入并生成医学影像模态和相关放射学报告,并通过受监督和无监督学习的方式,实现在文档检索任务中的表现,发现只需有限的监督即可获得与完全监督方法类似的结果。
Nov, 2018
提出了一种名为蒙版对比与重建(MCR)的高效 VLP 框架,以蒙版数据作为两个任务的唯一输入,增强任务之间的连接,并显著减少所需的 GPU 内存和训练时间。通过映射不同的模态到一个公共特征空间,然后进行局部特征聚合,减少细粒度语义信息的损失,从而降低了 fine-grained 的模态对齐所需要的 gpu 内存和时间。在 MIMIC-CXR 数据集上进行的定性和定量实验验证了该方法的有效性,并展示了在医学跨模态检索任务中的最先进性能。
Dec, 2023
通过关系增强的对比学习框架(RECLF),我们提出了一种可以模拟匹配间关系的医学图像表示学习方法,该方法利用医学图像报告作为弱监督,并通过图像 - 文本对齐实现。我们的结果表明,通过模拟匹配间关系,我们的 RECLF 方法可以学习到具有更好泛化能力的改进型医学图像表示。
Jan, 2024
通过提出强调关键语义知识的报告细化方法,本文开发了一种新颖的迭代式视觉 - 语言表示学习框架,从而对原始放射学报告进行细化,突出显示关键信息,并逐渐提取对细粒度分析任务至关重要的关键信息,从而验证了该框架在各种下游医学图像分析任务中的有效性,并展示了其在不同临床应用中的鼓舞人心的潜力。
Jan, 2024
本文提出了一种基于多粒度跨模态对齐的框架,通过利用病理区域级别、实例级别和疾病级别上医学图像和放射学报告之间的自然语义一致性来学习泛化的医学视觉表征,实验结果表明,该方法在涵盖了图像分类、物体检测和语义分割等七个下游医疗图像任务上表现出稳定和卓越的性能。
Oct, 2022
本文提出了一种知识增强的对比视觉语言预训练(KoBo)框架,该框架将临床知识整合进视觉语言语义一致性的学习中,从而应用于分类、分割、提取和语义相关性的任务中,具有与零样本或少样本设置相当或更好的性能。
Jul, 2023
本文旨在通过引入多对多局部关系建模来增强数据效率,从而更有效地利用有限的医学图像文本数据。我们提出了医学语言 - 图像预训练(MLIP)框架,通过补丁 - 句子匹配的方式更有效地利用图像 - 文本医学数据,同时引入遮蔽对比学习策略和语义完整性估计以减少图像中的冗余并保留其底层语义。我们的评估结果显示,MLIP 在零 / 少样本分类和少样本分割任务中表现出较大的优势。
Jan, 2024
利用图像和诊断报告的多模态深度学习在医学影像诊断领域取得了显著进展,尤其在缺乏足够注释信息的辅助诊断方面具有强大的能力,然而,没有详细位置注释的准确定位疾病仍然是一个挑战,现有的方法已尝试利用局部信息实现细粒度语义对齐,但其在提取综合上下文内的细粒度语义能力有限,为解决这一问题,我们提出了一种新的方法,将文本报告中的完整句子作为局部语义对齐的基本单元,我们的方法结合了胸部 X 射线图像和相应的文本报告,在全局和局部层面进行对比学习,我们的方法在多个数据集上取得的领先结果证实了其在病灶定位任务中的有效性。
Jan, 2024