使用多模态预训练的检索增强型生物医学视觉问答系统RAMM
本研究探究了 CLIP 在医学领域中应用的效果,并试图通过针对性的PubMedCLIP模型,与基于MAML模型和CLIP模型的医学视觉问答进行比较,证明通过语言监督的视觉表示学习能够显著提升MedVQA中的表现。
Dec, 2021
本文介绍了一种自我监督方法 - 对遮蔽图像建模、遮蔽语言建模、图像文本匹配和图像文本对齐进行对比学习的 M2I2 方法,应用于医学图像字幕数据集的预训练,并对下游医学 VQA 任务进行微调。该方法在三个公共医学 VQA 数据集上实现了最先进的性能。
Nov, 2022
本研究提出一种编码器-解码器框架,利用自注意机制跨图像文本双模态表示,并通过自监督多任务学习在大规模医学图像字幕数据集上进行预训练,并在小规模医学VQA数据集上进行微调,取得了比基线和SOTA方法更好的性能。
Feb, 2023
本研究旨在通过提出一种基于生成的模型方法(与大型自然语言模型结合)来解决医学图像中的问题,通过建立大规模的医疗视觉问答数据集,即PMC-VQA,该数据集包含149k张图片的227k个问答对,并进行预处理和微调以超越现有研究成果。
May, 2023
本文提出了一种新的自我监督方法来处理医学图像视觉问答问题,通过利用医学图像标题数据集来学习输入图像和文本的单模和多模特征表示,预训练模型后将其转移到下游的医学VQA任务中,已在三个公开的医学VQA数据集上取得了最先进的表现,具有显着的准确度提高。
Jul, 2023
通过使用领域特定的预训练策略,包括一种新颖的对比学习预训练方法,解决医学视觉问答任务中数据集规模小的问题,我们的模型在VQA-Med 2019测试集上达到了60%的准确率,与其他最先进的Med-VQA模型具有可比性。
Sep, 2023
医学视觉问答(Med-VQA)是医疗行业中非常重要的任务之一,通过医学图像回答自然语言问题。本文开发了一种用于医学视觉问答的基准评估系统(BESTMVQA),通过此系统,用户可以自动构建Med-VQA数据集,并选择多种先进模型进行综合实证研究。该系统从临床数据中自动构建新数据集,通过在统一的实验环境中对先进模型进行评估,克服了现有工作的局限性。
Dec, 2023
本文提出了一种基于多任务自监督学习的大规模医学VQA任务框架(MISS),将医学VQA作为生成任务,并通过多任务学习对齐图像-文本特征;此外,我们通过使用大语言模型(LLMs),在单模态图像数据集上扩展单一模态图像特征空间,使得传统医学视觉领域任务数据能够应用于VLP,实验证明我们的方法在较少的多模态数据集上取得了优异结果并展示了生成式VQA模型的优势。
Jan, 2024
我们利用多模态预训练中的视觉问题回答(VQA)指导框架,聚焦目标病理特征,通过医学报告中的描述设计了关联不同疾病的多粒度问题-答案对,并提出了一种基于准文本特征变换的新型预训练框架,将视觉特征转化为接近文本领域的准文本空间,缩小了视觉-语言差距,实现了模态对齐。在四个下游任务(报告生成、分类、分割和检测)的五个数据集上,广泛的实验证明了我们的框架相比其他最先进的方法的优越性。我们的代码将在接受后发布。
Mar, 2024
给出一个概述只需一句简短的中文描述是:本研究提出了LaPA模型,用于医学视觉问答。通过设计潜在提示生成模块、多模态融合块、和先验知识融合模块,利用潜在提示从单模态和多模态特征提取临床相关信息,并结合图像-语言跨模态信息预测最终答案。实验结果表明LaPA模型在三个公开的医学视觉问答数据集上胜过了现有的最先进模型ARL,分别在VQA-RAD、SLAKE和VQA-2019上达到了1.83%、0.63%和1.80%的改进。
Apr, 2024