利用联合自监督学习的医学视觉问答
本文介绍了一种自我监督方法 - 对遮蔽图像建模、遮蔽语言建模、图像文本匹配和图像文本对齐进行对比学习的 M2I2 方法,应用于医学图像字幕数据集的预训练,并对下游医学 VQA 任务进行微调。该方法在三个公共医学 VQA 数据集上实现了最先进的性能。
Nov, 2022
本文介绍了一种针对生物医学问题的图像和文字的多模态预训练和微调方法,该方法使用检索增强来克服数据限制问题,并收集了一个名为PMCPM的新生物医学数据集,实现了目前最先进的性能。
Mar, 2023
本文提出了一种名为Q2ATransformer的新型Transformer框架,将分类和生成方法的优势相结合,为医学图像问题回答系统提供了一种统一的处理方式。通过将可学习的候选答案嵌入到Transformer解码器中,使得我们的方法能够像生成方法一样与答案信息交互进行预测,同时通过分类方法减少搜索空间,从而实现了在两个医学VQA基准测试上的新的最高性能
Apr, 2023
本研究旨在通过提出一种基于生成的模型方法(与大型自然语言模型结合)来解决医学图像中的问题,通过建立大规模的医疗视觉问答数据集,即PMC-VQA,该数据集包含149k张图片的227k个问答对,并进行预处理和微调以超越现有研究成果。
May, 2023
对于医学图像上的叠加文本注释,本研究探讨其对视觉问答(VQA)任务的影响,并发现这种文本元信息的添加不会严重降低 VQA 性能指标,从而验证了在使用 AI 技术进行 VQA 任务时,在医学图像上叠加文本的做法的可行性。这项研究在提升对 VQA 的理解,尤其是在医疗和医学领域方面具有重要意义。
Jun, 2023
本文提出了一种新的自我监督方法来处理医学图像视觉问答问题,通过利用医学图像标题数据集来学习输入图像和文本的单模和多模特征表示,预训练模型后将其转移到下游的医学VQA任务中,已在三个公开的医学VQA数据集上取得了最先进的表现,具有显着的准确度提高。
Jul, 2023
通过使用领域特定的预训练策略,包括一种新颖的对比学习预训练方法,解决医学视觉问答任务中数据集规模小的问题,我们的模型在VQA-Med 2019测试集上达到了60%的准确率,与其他最先进的Med-VQA模型具有可比性。
Sep, 2023
本文提出了一种基于多任务自监督学习的大规模医学VQA任务框架(MISS),将医学VQA作为生成任务,并通过多任务学习对齐图像-文本特征;此外,我们通过使用大语言模型(LLMs),在单模态图像数据集上扩展单一模态图像特征空间,使得传统医学视觉领域任务数据能够应用于VLP,实验证明我们的方法在较少的多模态数据集上取得了优异结果并展示了生成式VQA模型的优势。
Jan, 2024
医学领域中的视觉问答(VQA)面临独特的、跨学科的挑战,结合了计算机视觉、自然语言处理和知识表示等领域。本研究针对这一研究领域的空白,探讨了放射学图像的有效表示和多模态表示的联合学习,超越了现有方法。我们创新性地增强了SLAKE数据集,使我们的模型能够回答更多样化的问题,不仅限于放射学或病理学图像的直接内容。我们的模型以较简单的架构实现了79.55%的top-1准确度,表现与当前最先进的模型相当。这项研究不仅推进了医学VQA,还在诊断环境中开辟了实用应用的途径。
Jan, 2024