利用单模态和多模态对比损失进行带有遮掩视觉和语言预训练,用于医学视觉问答
本文介绍了一种自我监督方法 - 对遮蔽图像建模、遮蔽语言建模、图像文本匹配和图像文本对齐进行对比学习的 M2I2 方法,应用于医学图像字幕数据集的预训练,并对下游医学 VQA 任务进行微调。该方法在三个公共医学 VQA 数据集上实现了最先进的性能。
Nov, 2022
我们利用多模态预训练中的视觉问题回答(VQA)指导框架,聚焦目标病理特征,通过医学报告中的描述设计了关联不同疾病的多粒度问题 - 答案对,并提出了一种基于准文本特征变换的新型预训练框架,将视觉特征转化为接近文本领域的准文本空间,缩小了视觉 - 语言差距,实现了模态对齐。在四个下游任务(报告生成、分类、分割和检测)的五个数据集上,广泛的实验证明了我们的框架相比其他最先进的方法的优越性。我们的代码将在接受后发布。
Mar, 2024
本文提出了一种基于多任务自监督学习的大规模医学 VQA 任务框架(MISS),将医学 VQA 作为生成任务,并通过多任务学习对齐图像 - 文本特征;此外,我们通过使用大语言模型(LLMs),在单模态图像数据集上扩展单一模态图像特征空间,使得传统医学视觉领域任务数据能够应用于 VLP,实验证明我们的方法在较少的多模态数据集上取得了优异结果并展示了生成式 VQA 模型的优势。
Jan, 2024
本研究提出一种编码器 - 解码器框架,利用自注意机制跨图像文本双模态表示,并通过自监督多任务学习在大规模医学图像字幕数据集上进行预训练,并在小规模医学 VQA 数据集上进行微调,取得了比基线和 SOTA 方法更好的性能。
Feb, 2023
通过使用领域特定的预训练策略,包括一种新颖的对比学习预训练方法,解决医学视觉问答任务中数据集规模小的问题,我们的模型在 VQA-Med 2019 测试集上达到了 60% 的准确率,与其他最先进的 Med-VQA 模型具有可比性。
Sep, 2023
通过在医学领域中使用大型视觉和语言模型,在三个不同的生物医学和放射学多模态视觉和文本数据集上进行三个阶段的参数高效训练后,提出了一种医学视觉语言模型。这个模型在 SLAKE 1.0 医学问答 (MedVQA) 数据集上实现了最新的性能,整体准确率为 87.5%,并在另一个 MedVQA 数据集 VQA-RAD 上展现了强大的性能,整体准确率为 73.2%。
Apr, 2024
本篇论文提出了 UnICLAM,一种通过对比表示学习与敌对遮盖进行统一解释的医学视觉问答模型,可用于心力衰竭等疾病的诊断,并且在公共基准上胜过了 11 种最先进的医学视觉问答模型。
Dec, 2022
本文提出了一种名为 MedViLL 的多模态自然语言处理模型,基于 BERT,使用一种新颖的多模态注意力掩码机制,通过在医学领域内的广泛一系列的多模态表现学习任务,包括影像报告分类、影像报告检索、影像问题回答和放射学报告生成,进行了统计和严格的评估,证明了 MedViLL 在各种基线上的优越性能表现,尤其是在三个影像报告数据集(MIMIC-CXR、Open-I 和 VQA-RAD)上的实现。
May, 2021
提出了一种基于 M$^3$AE 的自监督学习模型,通过随机遮盖图像和文本中的像素和标记来学习跨模态领域知识的医学视觉语言模型,并在三个任务上实现了最先进水平的结果。
Sep, 2022
我们在医学领域中对比了多模式表示学习的综合性基准测试。通过这项研究,我们旨在回答以下研究问题:(i)通用领域表示对医学领域有多大的可转移性?(ii)多模式对比训练是否足够,还是还需要单模态训练的益处?(iii)特征粒度对多模式医学表示学习的有效性有何影响?为了回答这些问题,我们在相同的训练设置下调查了八个对比学习方法,并使用来自四个数据集的 280 万个图像 - 文本对进行了训练,并在 25 个下游任务上进行了评估,包括分类(零样本和线性探测),图像到文本和文本到图像的检索,以及视觉问答。我们的研究结果表明,对于第一个问题,我们的答案是肯定的;对于第二个问题,我们的答案是否定的,而且学习细粒度特征具有益处。最后,我们公开了我们的代码。
Jun, 2024