MedUnA:基于语言指导的医学图像分类视觉-语言模型的无监督适应
本文提出了一种名为 MedViLL 的多模态自然语言处理模型,基于 BERT,使用一种新颖的多模态注意力掩码机制,通过在医学领域内的广泛一系列的多模态表现学习任务,包括影像报告分类、影像报告检索、影像问题回答和放射学报告生成,进行了统计和严格的评估,证明了 MedViLL 在各种基线上的优越性能表现,尤其是在三个影像报告数据集(MIMIC-CXR、Open-I 和 VQA-RAD)上的实现。
May, 2021
该研究介绍了一种适用于医学领域的自我监督视觉语言预训练模型Medical X-VL,展示该模型在医学领域的视觉语言任务中的超越性能,并证明了在新疾病诊断和监测人类错误等方面,Oversight AI具有广泛的应用潜力。
Aug, 2022
本文通过研究预训练视觉语言模型在医学图像领域的知识传递能力,发现合理设计的医学提示语是调用预训练模型知识的关键。通过使用在领域间共享的表达属性提示,可实现知识跨越领域,改进泛化能力,对新对象的识别有所优化。此外,通过自动化生成医学提示的三种方法,可以将专家级的医学知识和图像特定信息注入提示语中,进行细粒度的信息定位,试验表明,与默认提示相比,巧妙设计的医学提示显著提高了零样本性能,且微调模型超过了受监督的模型。
Sep, 2022
Med-UniC是一种用于统一跨语言医疗视觉语言预训练的框架,通过使用CTR方法对多模式医疗数据进行处理,解决了语言、文化及隐含知识等方面的问题,减轻了社区偏见并取得了优异的成果。
May, 2023
现代医疗常常使用放射影像和文字报告进行诊断,鼓励使用大型预训练模型进行视觉-语言自监督学习(VL-SSL)以学习多功能的医学视觉表示。然而,大部分现有的VL-SSL框架都是端到端训练的,计算成本高,并且可能丢失预训练编码器中嵌入的重要先验信息。为了解决这两个问题,我们引入了适用于任意骨干网络的Adaptor框架,通过保持预训练的图像和文本编码器的冻结状态,并采用轻量级的Adaptor模块进行跨模态学习来保留医学知识。在三个数据集上进行的医学图像分类和分割任务实验表明,与当前的预训练方法相比,我们的框架在保持可训练参数减少90%以上的同时,具有竞争性的性能。值得注意的是,仅使用1%的数据进行微调时,Adaptor在医学图像分割方面胜过了针对完整数据集训练的几种基于Transformer的方法。
Jan, 2024
在计算机视觉和医学图像领域的多模态系统中,语言监督的预训练被证明是从图像中提取语义有意义特征的有价值方法。然而,由于文本包含的信息有限,得到的特征受到了限制。在医学图像中,这一点尤为严重,因为放射科医生的书面结果侧重于特定观察,而相关图像-文本数据的稀缺性增加了挑战。本文通过在仅使用单模态医学图像数据进行预训练,引入了RAD-DINO,一种基于生物医学图像的编码器,其性能在各种基准测试中比最先进的基于生物医学语言的监督模型取得了相似或更好的表现。
Jan, 2024
通过 Medical Dual-Stream Language-Image Pre-training (MeDSLIP) 框架,建立了视觉-语言的细粒度对齐,采用了一种新颖的视觉-语言的原型对比度学习方法 (ProtoCL) 来增强解剖和病理的关联性,并利用跨流内图像对比度学习 (ICL) 确保了同一图像中解剖和病理概念间的一致性共存,这种跨流正则化鼓励模型更全面地进行表示学习,在零-shot和监督微调设置下在三个公开数据集上 (NIH CXR14, RSNA Pneumonia, SIIM-ACR Pneumothorax) 进行了评估,在分类、定位和分割任务上优于六个领先的基于CNN的模型。
Mar, 2024
利用诊断指导的引导策略和图像与标签信息,构建视觉-语言数据集,从而开发了一个通用的医疗基础模型MedDr,能够处理多样化的医疗数据模态,包括放射学、病理学、皮肤科、眼底摄影和内窥镜检查,并提出了一种简单而有效的检索增强医学诊断策略,提高了模型的泛化能力,广泛的实验验证了我们方法的优越性。
Apr, 2024
本研究介绍了一种旨在将可见语言模型(VLM)巧妙地应用于医学领域的框架,采用选择性采样和难负样本挖掘技术以提升检索任务的性能。在两个不同的VLM(MedCLIP和ALBEF)上实施我们的方法,并使用包含乳房X光和其相应报告的两个大型数据集来验证其有效性。通过我们的方法,在图像文本检索任务的Recall@K性能方面观察到显著的改善。
May, 2024
本研究针对医学视觉语言模型在少样本适应中相对未被探索的问题,提出了第一个结构化基准。我们引入了一种简单的线性探测器适应方法,结合视觉原型和文本嵌入,实现了在多种医疗模态和下游任务中的竞争性表现,推动了该领域的进一步发展。
Sep, 2024