- STLLaVA-Med:医学领域的自我训练大型语言与视觉助理
通过引入自我训练的大型语言和视觉助手 (STLLaVA-Med),使用 LVLM 和直接优化原则 (DPO) 自动产生医学视觉指导数据,以提高数据效率,并且证实了在使用只有 9% 的医学数据的情况下,STLLaVA-Med 在三个主要的医学 - Tri-VQA: 医学图像三角推理多属性分析的视觉问答
探讨构建更凝聚稳定的 Med-VQA 结构,通过提出的 Tri-VQA 框架从 “为什么是这个答案?” 的角度构建逆因果问题,阐明答案来源并激发更合理的正向推理过程。
- 大型多模态模型在医学视觉问答中的令人尴尬的简单探测评估:比随机还差?
通过探测性评估和程序诊断,严格评估了 LMM 在医学影像学中的性能,揭示了目前顶尖模型在医学诊断问题上的表现不如随机猜测,并强调了对 LMM 在医学诊断等关键领域的可靠性进行更为健壮的评估的紧迫需求。
- CVPRLaPA:医学视觉问答的潜在提示辅助模型
给出一个概述只需一句简短的中文描述是:本研究提出了 LaPA 模型,用于医学视觉问答。通过设计潜在提示生成模块、多模态融合块、和先验知识融合模块,利用潜在提示从单模态和多模态特征提取临床相关信息,并结合图像 - 语言跨模态信息预测最终答案。 - MedThink:通过多模态决策理由解释医学视觉问题回答
通过设计半自动注释过程,构建了基于多模态大型语言模型生成中间医疗决策理由的新的基准 MedVQA 数据集 R-RAD 和 R-SLAKE,并将其纳入训练过程中,通过三种不同的策略生成决策结果和相应的理由,从而清楚地展示推理过程中的医疗决策过 - 基于提示的个性化联邦学习用于医学视觉问答
我们提出了一种新颖的基于提示的个性化联邦学习(pFL)方法,以解决传统医学视觉问答(VQA)方法中的数据异质性和隐私问题。具体而言,我们将来自不同器官的医学数据集视为客户,并使用 pFL 为每个客户训练个性化的基于 Transformer - OmniMedVQA:医学 LVLM 的新大规模综合评估基准
我们介绍了 OmniMedVQA,一个来自 75 个不同医疗数据集的医疗视觉问答基准,其中包括 12 个不同的模态和超过 20 个不同的解剖区域。我们发现现有的大型视觉语言模型在解决这些医疗视觉问答问题时存在困难,甚至在医学专业化的模型中也 - MISS:一个用于医学视觉问答的生成预训练和微调方法
本文提出了一种基于多任务自监督学习的大规模医学 VQA 任务框架(MISS),将医学 VQA 作为生成任务,并通过多任务学习对齐图像 - 文本特征;此外,我们通过使用大语言模型(LLMs),在单模态图像数据集上扩展单一模态图像特征空间,使得 - BESTMVQA:医学视觉问答的基准评估系统
医学视觉问答(Med-VQA)是医疗行业中非常重要的任务之一,通过医学图像回答自然语言问题。本文开发了一种用于医学视觉问答的基准评估系统(BESTMVQA),通过此系统,用户可以自动构建 Med-VQA 数据集,并选择多种先进模型进行综合实 - GPT-4V 在医学影像中的多模态能力综合研究
这篇论文全面评估了 GPT-4V 在不同的医学图像任务中的能力,包括放射学报告生成、医学视觉问答和视觉基础。我们的研究首次对公开可用的基准进行了定量评估,发现了 GPT-4V 在为胸部 X 射线图像生成描述性报告方面的潜力,特别是在有良好结 - 医学领域的视觉问答
通过使用领域特定的预训练策略,包括一种新颖的对比学习预训练方法,解决医学视觉问答任务中数据集规模小的问题,我们的模型在 VQA-Med 2019 测试集上达到了 60% 的准确率,与其他最先进的 Med-VQA 模型具有可比性。
- MEDVQA-GI 2023 中 UIST-Saviors: 基于图像增强的胃肠道可视化问题回答的多模态学习改进
结合计算机视觉和自然语言处理,提出了一种多模态学习方法来改善胃肠道图像上的视觉问答性能,通过 BERT 编码器和基于卷积神经网络(CNN)和 Transformer 架构的不同预训练视觉模型从问题和内窥镜图像中提取特征,结果显示 Trans - PMC-VQA:基于视觉指导的医学视觉问答模型优化
本研究旨在通过提出一种基于生成的模型方法(与大型自然语言模型结合)来解决医学图像中的问题,通过建立大规模的医疗视觉问答数据集,即 PMC-VQA,该数据集包含 149k 张图片的 227k 个问答对,并进行预处理和微调以超越现有研究成果。
- Q2ATransformer: 通过答案查询解码器提高医学 VQA
本文提出了一种名为 Q2ATransformer 的新型 Transformer 框架,将分类和生成方法的优势相结合,为医学图像问题回答系统提供了一种统一的处理方式。通过将可学习的候选答案嵌入到 Transformer 解码器中,使得我们的 - UnICLAM: 对抗掩蔽的对比表示学习,实现统一和可解释的医学视觉问答
本篇论文提出了 UnICLAM,一种通过对比表示学习与敌对遮盖进行统一解释的医学视觉问答模型,可用于心力衰竭等疾病的诊断,并且在公共基准上胜过了 11 种最先进的医学视觉问答模型。
- MF2-MVQA:一种医学视觉问答的多阶段特征融合方法
本研究提出了一种简单却强大的多阶段特征融合方法 MF2-MVQA,它能有效利用医学图像的多尺度信息,实现了医疗视觉问答任务中语言与医学图像的特征融合,并在 VQA-Med 2019 和 VQA-RAD 数据集上实现了最先进的性能,可视化结果 - CLIP 在医学领域是否像在通用领域一样有益于视觉问答?
本研究探究了 CLIP 在医学领域中应用的效果,并试图通过针对性的 PubMedCLIP 模型,与基于 MAML 模型和 CLIP 模型的医学视觉问答进行比较,证明通过语言监督的视觉表示学习能够显著提升 MedVQA 中的表现。
- 医学视觉问答的多元元模型量化
本论文提出了一种新的多元元模型量化方法,能够有效地学习元注释和利用有意义的特征以处理医学可视问题回答任务中的数据限制问题。实验表明,该方法不需要外部数据即可训练元模型,并且在两个公共医学 VQA 数据集上得到比其他现有方法更为准确的结果。
- SLAKE: 基于语义标注的医学视觉问答增强数据集
本文提出了一个大型的双语数据集 SLAKE,包含全面的语义标签和医学知识库,可以用于促进 Med-VQA 系统的开发和评估。