文章提出了一种针对医学图像的视觉问答模型,该模型能够考虑上下文并回答关于图片区域的问题,实验结果表明该方法在三个数据集上优于现有方法。
Jul, 2023
本文介绍了一种自我监督方法 - 对遮蔽图像建模、遮蔽语言建模、图像文本匹配和图像文本对齐进行对比学习的 M2I2 方法,应用于医学图像字幕数据集的预训练,并对下游医学 VQA 任务进行微调。该方法在三个公共医学 VQA 数据集上实现了最先进的性能。
Nov, 2022
医学领域中的视觉问答(VQA)面临独特的、跨学科的挑战,结合了计算机视觉、自然语言处理和知识表示等领域。本研究针对这一研究领域的空白,探讨了放射学图像的有效表示和多模态表示的联合学习,超越了现有方法。我们创新性地增强了 SLAKE 数据集,使我们的模型能够回答更多样化的问题,不仅限于放射学或病理学图像的直接内容。我们的模型以较简单的架构实现了 79.55% 的 top-1 准确度,表现与当前最先进的模型相当。这项研究不仅推进了医学 VQA,还在诊断环境中开辟了实用应用的途径。
Jan, 2024
本研究提出一种编码器 - 解码器框架,利用自注意机制跨图像文本双模态表示,并通过自监督多任务学习在大规模医学图像字幕数据集上进行预训练,并在小规模医学 VQA 数据集上进行微调,取得了比基线和 SOTA 方法更好的性能。
Feb, 2023
我们利用多模态预训练中的视觉问题回答(VQA)指导框架,聚焦目标病理特征,通过医学报告中的描述设计了关联不同疾病的多粒度问题 - 答案对,并提出了一种基于准文本特征变换的新型预训练框架,将视觉特征转化为接近文本领域的准文本空间,缩小了视觉 - 语言差距,实现了模态对齐。在四个下游任务(报告生成、分类、分割和检测)的五个数据集上,广泛的实验证明了我们的框架相比其他最先进的方法的优越性。我们的代码将在接受后发布。
Mar, 2024
本研究旨在通过提出一种基于生成的模型方法(与大型自然语言模型结合)来解决医学图像中的问题,通过建立大规模的医疗视觉问答数据集,即 PMC-VQA,该数据集包含 149k 张图片的 227k 个问答对,并进行预处理和微调以超越现有研究成果。
May, 2023
本文提出自由和开放的视觉问答(VQA)任务,旨在通过自然语言问题回答图片问题,涉及到图片理解、多种语言的回答以及数据集和评价方法。
May, 2015
本篇综述介绍了视觉问答(VQA)任务,包括基于自然语言描述的图像识别以及机器学习模型的研究,主要探讨了近期在该领域中公布的数据集、新的深度学习模型以及基于 VQA 模型的一些应用研究和挑战。
Aug, 2019
我们设计了一个基于医学图像的手术问答系统,使用视觉和文本转换模型,并通过两个 Surgical-VQA 数据集验证了所提出的方法,结合分类和基于句子的答案以回答关于手术程序的问卷调查。
Jun, 2022
本文提出了一种基于多任务自监督学习的大规模医学 VQA 任务框架(MISS),将医学 VQA 作为生成任务,并通过多任务学习对齐图像 - 文本特征;此外,我们通过使用大语言模型(LLMs),在单模态图像数据集上扩展单一模态图像特征空间,使得传统医学视觉领域任务数据能够应用于 VLP,实验证明我们的方法在较少的多模态数据集上取得了优异结果并展示了生成式 VQA 模型的优势。