医学视觉问答中的本地化问题
通过使用领域特定的预训练策略,包括一种新颖的对比学习预训练方法,解决医学视觉问答任务中数据集规模小的问题,我们的模型在 VQA-Med 2019 测试集上达到了 60% 的准确率,与其他最先进的 Med-VQA 模型具有可比性。
Sep, 2023
医学领域中的视觉问答(VQA)面临独特的、跨学科的挑战,结合了计算机视觉、自然语言处理和知识表示等领域。本研究针对这一研究领域的空白,探讨了放射学图像的有效表示和多模态表示的联合学习,超越了现有方法。我们创新性地增强了 SLAKE 数据集,使我们的模型能够回答更多样化的问题,不仅限于放射学或病理学图像的直接内容。我们的模型以较简单的架构实现了 79.55% 的 top-1 准确度,表现与当前最先进的模型相当。这项研究不仅推进了医学 VQA,还在诊断环境中开辟了实用应用的途径。
Jan, 2024
本论文提出一种基于视觉问答的方法来查询深度学习模型的行为,通过在多个医学和自然图像数据集上进行实验,证明该方法较目前方法具有相同或更高的准确度,有效地解决了深度学习方法缺乏透明性的问题。
Mar, 2020
本研究提出一种编码器 - 解码器框架,利用自注意机制跨图像文本双模态表示,并通过自监督多任务学习在大规模医学图像字幕数据集上进行预训练,并在小规模医学 VQA 数据集上进行微调,取得了比基线和 SOTA 方法更好的性能。
Feb, 2023
通过在医学领域中使用大型视觉和语言模型,在三个不同的生物医学和放射学多模态视觉和文本数据集上进行三个阶段的参数高效训练后,提出了一种医学视觉语言模型。这个模型在 SLAKE 1.0 医学问答 (MedVQA) 数据集上实现了最新的性能,整体准确率为 87.5%,并在另一个 MedVQA 数据集 VQA-RAD 上展现了强大的性能,整体准确率为 73.2%。
Apr, 2024
本研究旨在通过提出一种基于生成的模型方法(与大型自然语言模型结合)来解决医学图像中的问题,通过建立大规模的医疗视觉问答数据集,即 PMC-VQA,该数据集包含 149k 张图片的 227k 个问答对,并进行预处理和微调以超越现有研究成果。
May, 2023
本文提出一种方法,通过选择与基于文本的查询相关的图像区域来学习回答视觉问题。该方法在回答 ' 什么颜色 ' 等需要评估特定位置以及 ' 什么房间 ' 等需要选择性地识别信息图像区域的问题方面展示出显著的提升。我们的模型在 VQA 数据集上进行测试,这是目前为止最大的人工注释视觉问题回答数据集。
Nov, 2015
本文介绍了一种自我监督方法 - 对遮蔽图像建模、遮蔽语言建模、图像文本匹配和图像文本对齐进行对比学习的 M2I2 方法,应用于医学图像字幕数据集的预训练,并对下游医学 VQA 任务进行微调。该方法在三个公共医学 VQA 数据集上实现了最先进的性能。
Nov, 2022
本文提出了一种基于 Focused Dynamic Attention 模型的视觉问答方法,该方法通过结合全局特征和重点区域信息,能够更好地处理细粒度信息和语言语义,进而提高了视觉问答的表现。
Apr, 2016