面向医疗视觉问答的定向视觉提示
本研究探究了 CLIP 在医学领域中应用的效果,并试图通过针对性的PubMedCLIP模型,与基于MAML模型和CLIP模型的医学视觉问答进行比较,证明通过语言监督的视觉表示学习能够显著提升MedVQA中的表现。
Dec, 2021
本研究旨在通过提出一种基于生成的模型方法(与大型自然语言模型结合)来解决医学图像中的问题,通过建立大规模的医疗视觉问答数据集,即PMC-VQA,该数据集包含149k张图片的227k个问答对,并进行预处理和微调以超越现有研究成果。
May, 2023
通过使用领域特定的预训练策略,包括一种新颖的对比学习预训练方法,解决医学视觉问答任务中数据集规模小的问题,我们的模型在VQA-Med 2019测试集上达到了60%的准确率,与其他最先进的Med-VQA模型具有可比性。
Sep, 2023
通过调查Visual Question Answering(视觉问题回答)领域的复杂性,本研究提供了对VQA数据集和方法的详细分类,展示了该领域的最新趋势、挑战和改进方向,并将VQA推广到多模态问答,探索与VQA相关的任务,并提出了一系列未来研究的开放性问题。
Nov, 2023
医学视觉问答(Med-VQA)是医疗行业中非常重要的任务之一,通过医学图像回答自然语言问题。本文开发了一种用于医学视觉问答的基准评估系统(BESTMVQA),通过此系统,用户可以自动构建Med-VQA数据集,并选择多种先进模型进行综合实证研究。该系统从临床数据中自动构建新数据集,通过在统一的实验环境中对先进模型进行评估,克服了现有工作的局限性。
Dec, 2023
这篇论文提出了一个参数高效的框架,专门用于调整针对 Med-VQA 应用的多模式大型语言模型,并通过公共基准数据集进行了实证验证,结果显示我们的模型在封闭问题上的整体准确率达到了81.9%,并且在准确率上超过 GPT-4v 模型26%的显著优势。
Jan, 2024
使用大型语言模型和多模态语言模型,我们开发了一种方法将特定领域的视觉和视觉-语言数据集转化为统一的问答格式,从而扩展了多模态语言模型用于特定领域任务,实验结果表明该方法在特定领域的视觉任务和视觉-语言任务上达到了高分数指标并保持了多任务的性能。
Feb, 2024
给出一个概述只需一句简短的中文描述是:本研究提出了LaPA模型,用于医学视觉问答。通过设计潜在提示生成模块、多模态融合块、和先验知识融合模块,利用潜在提示从单模态和多模态特征提取临床相关信息,并结合图像-语言跨模态信息预测最终答案。实验结果表明LaPA模型在三个公开的医学视觉问答数据集上胜过了现有的最先进模型ARL,分别在VQA-RAD、SLAKE和VQA-2019上达到了1.83%、0.63%和1.80%的改进。
Apr, 2024
通过在医学领域中使用大型视觉和语言模型,在三个不同的生物医学和放射学多模态视觉和文本数据集上进行三个阶段的参数高效训练后,提出了一种医学视觉语言模型。这个模型在SLAKE 1.0医学问答(MedVQA)数据集上实现了最新的性能,整体准确率为87.5%,并在另一个MedVQA数据集VQA-RAD上展现了强大的性能,整体准确率为73.2%。
Apr, 2024