SLAKE: 基于语义标注的医学视觉问答增强数据集
通过设计半自动注释过程,构建了基于多模态大型语言模型生成中间医疗决策理由的新的基准 MedVQA 数据集 R-RAD 和 R-SLAKE,并将其纳入训练过程中,通过三种不同的策略生成决策结果和相应的理由,从而清楚地展示推理过程中的医疗决策过程,实验证明该方法在 R-RAD 上能达到 83.5% 的准确率,在 R-SLAKE 上能达到 86.3% 的准确率,显著优于现有最先进的基线模型。
Apr, 2024
医学领域中的视觉问答(VQA)面临独特的、跨学科的挑战,结合了计算机视觉、自然语言处理和知识表示等领域。本研究针对这一研究领域的空白,探讨了放射学图像的有效表示和多模态表示的联合学习,超越了现有方法。我们创新性地增强了 SLAKE 数据集,使我们的模型能够回答更多样化的问题,不仅限于放射学或病理学图像的直接内容。我们的模型以较简单的架构实现了 79.55% 的 top-1 准确度,表现与当前最先进的模型相当。这项研究不仅推进了医学 VQA,还在诊断环境中开辟了实用应用的途径。
Jan, 2024
本研究发布了一个越南的医疗问题数据集,具有句子层次和实体层次的注释,旨在改善基于任务的医疗聊天机器人对病人问题的理解能力,并提出了一种自监督的训练策略。
Apr, 2023
介绍新的数据集和任务,旨在促进医疗视频的理解与自然语言问题的视觉回答,并以这两项任务为重心,提供跨模态(医疗语言和医学视频)的理解挑战。这些任务和数据集有助于推动支持公众和医务人员受益的下游应用程序的发展,并已通过医学信息学专家的验证和修正。
Jan, 2022
通过在医学领域中使用大型视觉和语言模型,在三个不同的生物医学和放射学多模态视觉和文本数据集上进行三个阶段的参数高效训练后,提出了一种医学视觉语言模型。这个模型在 SLAKE 1.0 医学问答 (MedVQA) 数据集上实现了最新的性能,整体准确率为 87.5%,并在另一个 MedVQA 数据集 VQA-RAD 上展现了强大的性能,整体准确率为 73.2%。
Apr, 2024
提出了一个包含多种信息的文档图像的逻辑问答系统,包括视觉、文本和排版信息。SlideVQA 是一个用于复杂推理的新的多图像文档数据集,利用序列到序列模型同时处理证据选择和问题回答。实验结果表明,该方法在 SlideVQA 数据集上表现出了较好的效果。
Jan, 2023
我们介绍了 OmniMedVQA,一个来自 75 个不同医疗数据集的医疗视觉问答基准,其中包括 12 个不同的模态和超过 20 个不同的解剖区域。我们发现现有的大型视觉语言模型在解决这些医疗视觉问答问题时存在困难,甚至在医学专业化的模型中也表现出劣于通用领域模型的性能,这要求在生物医学领域开发更加通用和强大的大型视觉语言模型。
Feb, 2024
本研究介绍了 Event-QA 数据集,该数据集专注于回答关于事件的问题,针对现有 QA 系统和数据集关注于实体问题的情况,提供了一种新的回答事件问题的方法。
Apr, 2020
机器阅读理解在医疗问答系统中发挥着重要作用,本研究通过整合专门的医学数据集和创建专用数据集的方法,提高了问答系统的准确性,为临床决策和医学研究的进展做出贡献。通过对 BERT、RoBERTa 和 Tiny RoBERTa 等模型进行微调,显著提高了对医学内容的响应准确性。
Apr, 2024
通过使用领域特定的预训练策略,包括一种新颖的对比学习预训练方法,解决医学视觉问答任务中数据集规模小的问题,我们的模型在 VQA-Med 2019 测试集上达到了 60% 的准确率,与其他最先进的 Med-VQA 模型具有可比性。
Sep, 2023