医疗视觉语言预训练透过自监督学习的方式利用图像和文本数据集,为医学领域稀缺的标注数据提供了解决方案。该文回顾了医疗视觉语言预训练的不同目标、架构、评估任务和数据集,并探讨了现有挑战及未来发展方向。
Dec, 2023
本文提出了一种系统和有效的方法来增强医学视觉和语言预训练 (Med-VLP),通过结构化医学领域专家知识从三个方面做到了这一点,并构建了一个医学视觉和语言基准来评估此方法的有效性。
Sep, 2022
本文提出了一种知识增强的对比视觉语言预训练(KoBo)框架,该框架将临床知识整合进视觉语言语义一致性的学习中,从而应用于分类、分割、提取和语义相关性的任务中,具有与零样本或少样本设置相当或更好的性能。
Jul, 2023
本文提出了一种名为 MedViLL 的多模态自然语言处理模型,基于 BERT,使用一种新颖的多模态注意力掩码机制,通过在医学领域内的广泛一系列的多模态表现学习任务,包括影像报告分类、影像报告检索、影像问题回答和放射学报告生成,进行了统计和严格的评估,证明了 MedViLL 在各种基线上的优越性能表现,尤其是在三个影像报告数据集(MIMIC-CXR、Open-I 和 VQA-RAD)上的实现。
May, 2021
本文介绍了一种自我监督方法 - 对遮蔽图像建模、遮蔽语言建模、图像文本匹配和图像文本对齐进行对比学习的 M2I2 方法,应用于医学图像字幕数据集的预训练,并对下游医学 VQA 任务进行微调。该方法在三个公共医学 VQA 数据集上实现了最先进的性能。
Nov, 2022
本文综述了视觉 - 语言预训练模型在多模态学习上的进展,介绍了编码图像、文本信息的方法,分析了模型中处理文本与图像交互的主流架构以及已有的预训练任务和下游任务,并提出了未来的研究方向。
Feb, 2022
通过在医学图像分析中引入疾病相关的上下文提示,利用预训练的视觉 - 语言模型(VLMs)的联合能力,提出了一种新的疾病原型学习框架,有效地提升了 VLMs 对新疾病概念的理解和性能,相较于现有方法有明显的提升。
May, 2024
本篇研究综述了当下 Vision-and-Language 领域内的预训练模型,并归纳总结了相关预训练技术、训练集以及下游任务。同时,文章还讨论了未来研究的多个方向。
Jul, 2022
本文通过研究预训练视觉语言模型在医学图像领域的知识传递能力,发现合理设计的医学提示语是调用预训练模型知识的关键。通过使用在领域间共享的表达属性提示,可实现知识跨越领域,改进泛化能力,对新对象的识别有所优化。此外,通过自动化生成医学提示的三种方法,可以将专家级的医学知识和图像特定信息注入提示语中,进行细粒度的信息定位,试验表明,与默认提示相比,巧妙设计的医学提示显著提高了零样本性能,且微调模型超过了受监督的模型。
本文介绍了一种基于语义模型的对比学习方法,该方法在生物医学领域的文本 - 语言建模中取得了目前最先进的结果,利用该方法可以更好地理解医学图像和报告。
Apr, 2022