本文通过研究预训练视觉语言模型在医学图像领域的知识传递能力,发现合理设计的医学提示语是调用预训练模型知识的关键。通过使用在领域间共享的表达属性提示,可实现知识跨越领域,改进泛化能力,对新对象的识别有所优化。此外,通过自动化生成医学提示的三种方法,可以将专家级的医学知识和图像特定信息注入提示语中,进行细粒度的信息定位,试验表明,与默认提示相比,巧妙设计的医学提示显著提高了零样本性能,且微调模型超过了受监督的模型。
Sep, 2022
本研究介绍了一种旨在将可见语言模型(VLM)巧妙地应用于医学领域的框架,采用选择性采样和难负样本挖掘技术以提升检索任务的性能。在两个不同的 VLM(MedCLIP 和 ALBEF)上实施我们的方法,并使用包含乳房 X 光和其相应报告的两个大型数据集来验证其有效性。通过我们的方法,在图像文本检索任务的 Recall@K 性能方面观察到显著的改善。
May, 2024
本研究探讨了视觉语言模型在医学图像分析任务中的零样本和少样本鲁棒性,通过全面的实验验证了视觉语言模型在分析生物医学图像方面的有效性。
Feb, 2024
利用多模态视觉语言模型从图像描述和图像中捕捉语义信息,实现对多样化医学图像的分割,并评估其在医学领域的迁移性和基于生成提示的模型性能变化。
Aug, 2023
本文系统回顾了基于语言的视觉模型在各种视觉识别任务中的应用,并总结了广泛采用的网络结构、预训练目标和下游任务,以及预训练和评估中广泛采用的数据集,并回顾和分类现有的预训练方法、传输学习方法和知识蒸馏方法。
Apr, 2023
本研究旨在展示如何从公共资源如 PubMed 中自动收集医学图像与文本对齐数据,构建用于具体医学任务的高性能视觉语言模型,并解决医学领域中子图到子标题的映射问题。
Apr, 2024
医学视觉语言模型结合了计算机视觉和自然语言处理,用于分析视觉和文本式医学数据。我们的论文回顾了最近在开发医学领域专用的视觉语言模型方面的进展,重点关注医学报告生成和视觉问答模型。我们提供了自然语言处理和计算机视觉的背景,解释了如何将两个领域的技术集成到视觉语言模型中,以实现对多模态数据的学习。我们讨论的关键领域包括医学视觉语言数据集的探索,最近有价值的医学视觉语言模型中所采用的体系结构和预训练策略的深入分析,以及评估指标在医学报告生成和视觉问答性能评估中的综合讨论。我们还强调了当前的挑战,并提出了未来的发展方向,包括增强临床有效性和解决患者隐私问题。总的来说,我们的综述总结了最近在开发视觉语言模型以利用多模态医学数据改进医疗应用方面的进展。
Mar, 2024
本文提出了一种系统和有效的方法来增强医学视觉和语言预训练 (Med-VLP),通过结构化医学领域专家知识从三个方面做到了这一点,并构建了一个医学视觉和语言基准来评估此方法的有效性。
该研究提出了 ViLaM,一个统一的视觉 - 语言转换模型,通过集成基于大型语言模型的指令调整,能够在包括语言和视觉的一系列任务中最佳利用大型预训练语言模型的知识和推理能力,从而在医学图像分析等复杂视觉任务中取得了非凡的表现,并展示了其令人印象深刻的零样本学习能力,表明 ViLaM 在医学领域具有潜在的未来应用。
Nov, 2023
本篇研究综述了当下 Vision-and-Language 领域内的预训练模型,并归纳总结了相关预训练技术、训练集以及下游任务。同时,文章还讨论了未来研究的多个方向。
Jul, 2022